Statistics of extremes concerns the modelling of rare events, usually with the goal of estimating the probabilities of events that have not yet been observed. Such events necessarily lie in or beyond the tail of any available data, so some means of extrapolating their values from existing observations is needed, and of course this is a hazardous enterprise. Its foundations were laid 90 years ago, when Fisher and Tippet [Fisher.Tippett:1928] derived classical limiting distributions for maxima of independent random variables. Around 50 years later, analogous results for the process setting were discovered [Brown.Resnick:1977,deHaan.Resnick:1977,deHaan:1984], but apart from isolated efforts [Smith:1990,Coles:1993,Coles.Tawn:1996:Areal] there was little statistical work on extremes in spatial and space-time settings. The widespread availability of suitable data and the need to estimate risks stemming from the likely impacts of climate change have made spatial modelling of extremes both feasible and desirable, and the area has seen rapid development over the past decade or so. In this talk I shall give an overview of the topic, based on recent work with colleagues. Apart from obvious concerns about the difficulty of extrapolating a joint distribution from limited data, key elements are max-stable processes, changes in the intensity of extreme events with their rarity, and the need to balance accurate modelling of marginal and joint distributions.
One of the main concerns in extreme value theory is to quantify the dependence between joint tails. Using stochastic processes that lack flexibility in the joint tail may lead to severe under- or over-estimation of probabilities associated to simultaneous extreme events. Max-mixture models has been introduced for modeling situations where the extremal dependence structure may vary with the distance. We propose a non-parametric model-free selection criterion for the mixing coefficient of max-mixture models. Our criterion is derived from the madogram, a notion classically used in geostatistics to capture spatial structures. We use a nonlinear least squares method (between the theoretical madogram and the empirical one). We perform a simulation study and apply our criterion to daily precipitation over the East of Australia. This is a join work with Abdul-Fattah Abbu-Awwad and Pierre Ribereau.
La modélisation statistique de la queue de distribution permet de prédire la probabilité d'occurrence d'événements extrêmes à partir des données observées. La prise en compte de covariables explicatives peut considérablement améliorer ces prédictions. Nous proposons ici une approche de régression bayésienne pour modéliser des tendances complexes (ici, temporelles et spatiales) dans la queue de distribution, formulées à l'aide d'un système de modèles additifs genéralisés pour la partie centrale de la distribution, pour la probabilité d'excès d'un seuil nonstationnaire élevé, et pour le dépassement au-dessus de ce seuil. Le modèle pour la partie centrale de distribution, estimé dans une première étape, nous permet de fixer un seuil nonstationnaire approprié. Pour les dépassements de seuil, nous utilisons la loi de Pareto généralisée (GP), suggérée par les résultats asymptotiques en théorie des valeurs extrêmes. D'abord, nous dérivons la spécification de la "penalized complexity prior" pour l'indice de queue, un paramètre clé de la loi GP. Cette loi a priori concentre sa masse relativement proche d'un modèle de référence caractérisé par une rapide décroissance exponentielle dans la queue de distribution. Toutefois, les données peuvent contrebalancer une penalité sur la distance de cette loi a priori par rapport à la loi exponentielle, permettant ainsi au modèle de capter des queues de distribution plus lourdes. Dans les modèles de régression, nous modélisons des effets aléatoires latents, additifs et semi-paramétriques, à l'aide de processus gaussiens a priori, souples et faciles à interpréter. Nous nous appuyons sur INLA (Integrated Nested Laplace Approximation), une technique d'approximation analytique, pour estimer les lois a posteriori de façon rapide et précise. Nous illustrons cette méthodologie en modélisant des tendances spatiales et saisonnières dans les quantiles extrêmes de données de cumuls de précipitations journalières aux Pays-Bas. En exploitant la rapidité de l'implémentation R-INLA, nous avons mené une étude extensive de validation croisée afin de sélectionner les valeurs de paramètres pilotant la régularité des courbes de tendance estimées. Nos résultats, présentés dans le cadre d'un challenge posé au sein de la conférence "Extreme Value Analysis 2017" à Delft (Pays-Bas), montrent une nette amélioration de prédiction en comparaison avec un simple benchmark, et sont comparables aux meilleurs scores d'évaluation des équipes participantes.
To model large complex datasets, it is natural to consider Gaussian models for their conceptual and computational convenience. However, these models can strongly underestimate the occurrence and the dependence of extreme events. The aim of the talk is, first, to illustrate why classical spatial statistics fails to capture the tail behaviour of rare events, and then to explain how extreme value theory provides a flexible framework to accurately model tails of distributions. We describe functional peaks-over-threshold analysis, which allows one to define complex extreme events as special types of exceedances, and then describe their limit distribution for increasingly high thresholds, namely the generalized $r$-Pareto process. We present a model based on log-Gaussian functions, which enables to use classical Gaussian covariance structures to model extremal dependence. We use these results to develop a stochastic weather generator for extreme windstorms over Europe.