Session S6 - Sondages sur données temporelles

Organisation : Anne De Moliner

Surveys from large datasets of functional data and estimation of the mean and median curve with full and missing data (pdf)

Orateur : Camelia Goga, Université de Franche Comté

In the near future, millions of electricity load curves of French households measured at a very fine scale will be available. All these collected load curves represent a huge amount of information difficult to store due to technical and budgetary constraints. In these situations, survey sampling techniques are attractive alternatives to signal compression techniques since they can offer an interesting trade-off between size of the data and accuracy of estimators of simple indicators such as the mean or the median curves of the electricity consumption. I will present a panorama of different strategies considered to estimate the mean or the median with application on a population test of French electricity consumption curves. Unfortunately, data collection may undergo technical problems resulting in missing values. This problem reduces the accuracy of the estimators and may generate bias. Different approaches can be adapted to deal with missing data in this functional framework: nearest neighbor imputation, kernel smoothing of the discretized trajectories or linear interpolation to the differences around the mean. I will give a comparison of these methods on the estimation of the mean curve of French electricity consumption curves with different scenario of missing data.

[cardot2018estimation] : Cardot, H. and De Moliner, A. and Goga, C. Estimation of total electricity consumption curves by sampling in a finite population when some trajectories are partially unobserved. (à paraître dans Canadian Journal of Statistics, numéro spécial pour le CANSSI project
[cardot2015estimating] : Cardot, H. and De Moliner, A. and Goga, C. Estimating with kernel smoothers the mean of functional data in a finite population setting. A note on variance estimation in presence of partially observed trajectories. Statistics & Probability Letters, 99: 156--166, 2015.
[cardot2014] : Cardot, H. and Goga, C. and Lardin, P. Variance estimation and asymptotic confidence bands for the mean estimator of sampled functional data with high entropy unequal probability sampling designs. Scandinavian Journal of Statistics, 41: 516-534, 2014.
[lardin2013] : Cardot, H. and Goga, C. and Lardin, P. Uniform convergence and asymptotic confidence bands for model-assisted estimators of the mean of sampled functional data. Electronic Journal of Statistics, 7: 562-596, 2013.

Estimation en temps réel de consommations demi-horaires agrégées d'électricitéà maille locale (pdf)

Orateur : Olivier Chaouy, Enedis

Nous proposons une méthode d'estimation de courbes de consommation électrique moyennes résidentielles des IRIS d'un territoire géographique, actualisées en temps quasi réel (pas demi horaire). Pour cela, des modèles linéaires mixtes au niveau unité sont appliqués à partir de données de panel remontées en temps réel. On présente une démonstration sur la ville de Valenciennes.

[sae] : A. De Moliner, C. Goga, and H. Cardot. Estimation of total electricity consumption curves of small areas by sampling in a finite population. 22nd International Conference on Computational Statistics (COMPSTAT 2016), 49--57, 2016.

Plans d'échantillonnage pour des populations auto-corrélées (pdf)

Orateur : Matthieu WILHELM, University of Neuchâtel

Lorsque l'on considère une série temporelle, il est en général raisonnable de supposer qu'il existe une auto-corrélation entre des réalisations successives. Il s'agit d'une information auxiliaire dont il est important de tenir compte lorsque l'on choisit le plan d'échantillonnage. En effet, même en l'absence de toute autre information auxiliaire, il est pertinent de construire un plan d'échantillonnage répulsif, c'est-à-dire tel que deux unités très proches ont une probabilité d'être sélectionnées ensemble qui est faible. Nous avons développé dans le cas d'une population finie une famille de plans d'échantillonnage (a probabilités égales) dont on peut régler la répulsion et dont les probabilités d'inclusion jointes sont connues analytiquement [QSSFinitePop]. Dans le cas d'une fonction continue et régulière (et donc dont la corrélation varie avec le temps), on a aussi développé une famille de processus ponctuels répulsifs qui sont parfaitement caractérisés. Ces processus sont adaptés à de l'échantillonnage de fonctions continues définies sur un intervalle de la droite réelle [QSSCont].

[QSSCont] : M. Wilhelm, Y. Tillé, and L. Qualité. Quasi-Systematic Sampling From a Continuous Population. Computational Statistics & Data Analysis, 105: 11--23, 2016.
[QSSFinitePop] : Y. Tillé, L. Qualité, and M. Wilhelm. Sampling Designs From Finite Populations With Spreading Control Parameters. Statistica Sinica, 28: 471--504, 2018.

Approches temporelles dans les estimations par sondage des flux de trafics à La Poste : Une démarche pour élaborer des échantillons avec équilibrage spatio-temporel, sous contraintes de lissages (pdf)

Orateur : Pauline PUECH, LA POSTE

La Poste utilise une étude permanente par sondage depuis près de 40 ans pour élaborer un observatoire statistique des flux de courrier et colis traités dans son réseau de transport et de distribution. Pour ce faire, elle s'appuie sur un réseau d'enquêteurs spécialisés de 220 agents, répartis sur 24 équipes au niveau national. Cherchant à estimer le nombre d'objets distribués tous les jours sur une période donnée, l'aspect temporel est crucial dans la mise en œ uvre de notre démarche. Le plan de sondage utilisé combine une approche géographique et une approche temporelle. Ainsi, par exemple, pour étudier les flux distribués pour les ménages, le plan utilisé est un plan à plusieurs degrés; le premier degré de notre sondage étant la population des tournées de facteur sortant effectivement chaque jour. Un double échantillon de ces unités primaires est effectué afin de tirer, d'une part, les tournées à partir d'une base d'adresses, ce de manière indirecte, à laquelle nous adjoignons, d'autre part, un calendrier d'observations. Celui-ci est tiré de manière aléatoire, à probabilités inégales et sous un certain nombre de contraintes. L'échantillon construit permet à la fois d'avoir une bonne couverture de l'ensemble des tournées de France métropolitaine et de l'ensemble de la période d'étude. Les échantillons/calendriers sont élaborés chaque trimestre. Après avoir succinctement présenté le plan de sondage utilisé, nous nous focaliserons plus particulièrement sur l'aspect échantillonnage temporel de notre plan. Notre démarche tente de respecter au mieux les contraintes suivantes : * Avoir un bon équilibrage temporel afin de capter l'ensemble des saisonnalités hebdomadaires, mensuelles et annuelles des flux de courrier. * Lisser suffisamment les dates d'observations sur l'ensemble du trimestre, ce pour le planning de chaque équipe, par soucis de réalisabilité au niveau local. Cette démarche s'appuie sur des travaux de Grafström et Tillé (2013). En conclusion, nous exposerons des pistes d'améliorations de nos estimateurs par l'utilisation de mélange d'estimateurs. Nous regarderons plus précisément l'utilisation d'un modèle appliqué sur un historique d'estimations mensuelles. La méthodologie utilisée pouvant s'apparenter à des estimations sur petits domaines de type indirectes composites.

[1] : Grafström, A. et Tillé, Y. (2013). Doubly balanced spatial sampling with spreading and restitution of auxiliary totals. Environmetrics, 24(2). 120-131.
[2] : Lavallée, P. (2007). Indirect Sampling, ed. Springer.
[3] : Molina, I. et Rao J.N.K. (2015). Small Area Estimation, ed. Wile.