v2.2.8 (2209)

PA - C8 - DS-ENSAE-2 : Statistique en grande dimension

Descriptif

Objectif
La statistique en grande dimension est un domaine recent developpe au
cours de la derniere decennie. Son objectif est de traiter les donnees nou-
velles, telles que, pour chaque individu, on dispose d'un grand nombre de
variables observees, qui est parfois plus grand que le nombre des individus
dans l'echantillon. Bien evidemment, pas toutes les variables sont pertinentes
et d'habitude il en existe tres peu. La notion de parcimonie (sparsite) est
donc fondamentale pour l'interpretation de donnees en grande dimension.
Le but de ce cours est de presenter quelques principes fondateurs qui emer-
gent dans ce contexte. Ils sont communs a de nombreux problemes apparus
recemment, tels que la regression lineaire en grande dimension, l'estimation
de grandes matrices de faible rang, ainsi que les modeles de reseaux, par
exemple, les modeles stochastiques a blocs. L'accent sera mis sur la con-
struction de methodes optimales en vitesse de convergence et leurs proprietes
d'oracle.
Plan
 Modele de suite gaussienne. Sparsite et procedures de seuillage.
 Regression lineaire en grande dimension. Methodes BIC, Lasso, Dantzig
selector, square root Lasso. Proprietes d'oracle et selection de variables.
 Estimation de grandes matrices de faible rang. Sparse PCA.
 Inference sur les reseaux. Modele stochastique a blocs (stochastic bloc
model).
References
 C.Giraud. Introduction to high-dimensional statistics. Chapman and
Hall, 2015.
 A.B.Tsybakov. Apprentissage statistique et estimation non-parametrique.
Polycopie de l'Ecole Polytechnique, 2014.
 S.van de Geer. Estimation and testing under sparsity. Lecture Notes
in Mathematics 2159. Springer, 2016.

Pour les étudiants du diplôme Data Sciences

Veuillez patienter