Descriptif
Cet enseignement a trois objectifs. Le premier objectif est d'introduire les outils de statistique mathématique et d'apprentissage statistique ("machine learning"). Nous décrirons toutes depuis le choix d'un modèle statistique, l'estimation des paramètres et l'inférence et le choix de modèles. Nous apprendrons à construire des estimateurs, des tests, des règles de classification, à évaluer les performances de ces règles. Nous introduirons un certain nombre d'outils théoriques - théorie de la décision, processus empirique-. Les deux derniers cours seront consacrés à une introduction à l'apprentissage statistique. Le deuxième objectif est de décrire, dans le cours et dans les petites classes, des exemples concrets de modélisation dans divers domaines (traitement du signal et des images, économétrie, sciences de l'environnement, classification de formes etc.). Le troisième objectif est de développer un savoir-faire pratique fondé permettant de comprendre la façon dont les outils théoriques peuvent être mis en oeuvre dans des applications concrètes (utilisation de R ou de Python).
Contenu du site. Vous trouverez sur ce site toutes les ressources pédagogiques mises à disposition pour ce cours.
Les diapositives des leçons, les énoncés des exercices traités en PC et leurs corrigés sont mis à jour régulièrement.
Les énoncés des devoirs maison (DM) et des explorations numériques brèves hebdomadaires, ainsi que leurs corrigés, seront aussi déposés sur ce site.
Intervenants dans les cours d'Amphi et en PC.
- M. Eric Moulines, Professeur à l'Ecole Polytechnique,
- M. Sébastien Gadat, Professeur à Toulouse School of Economics, spécialiste d'apprentissage statistique.
- Mme Gersende Fort, Directrice de Recherche CNRS à l'Institut de Mathématiques de Toulouse, spécialiste de statistique numérique et probabilités appliquées
- M. Aymeric Dieuleveut, Professeur assistant à l'Ecole Polytechnique, spécialiste d'apprentissage statistique et optimisation stochastique.
- Mr Matthieu Lerasle, Professeur à l'ENSAE, spécialiste de statistique non paramétrique et de statistique des données dépendantes.
- Mme Marylou Gabrié, Professeure assistante à l'Ecole Polytechnique, théorie de l'apprentissage statistique, physique statistique, simulation.
- Mr. Edouard Oyallon, Chargé de Recherche au CNRS, théorie de l'apprentissage profond, apprentissage statistique
- Mr Victor-Emmanuel Brunel, Professeur à l'ENSAE, optimisation convexe, estimation non-paramétrique.
- Un doctorant, en charge des expérimentations numériques
- Un doctorant qui nous assistera pour les corrections de copies de DM.
- deux devoirs maison contenant une partie "problème" et une partie numérique à résoudre en Python.
- quatre explorations numériques brèves, à réaliser en Python, afin de visualiser les notions vues en cours sur des exemples jouets.
Validation du cours. La note littérale est calculée de la façon suivante:
-
3/4 Note du contrôle écrit
-
1/4 Contrôle continu (DM, Exercices numériques)
-
Bonus / Malus [rendu des Recherches maison notées, participation en PC]: -3/+3
Diplôme(s) concerné(s)
Parcours de rattachement
Format des notes
Numérique sur 20Littérale/grade réduitPour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique
Le rattrapage est autorisé (Note de rattrapage conservée)- Crédits ECTS acquis : 5 ECTS
Le coefficient de l'UE est : 10
La note obtenue rentre dans le calcul de votre GPA.
La note obtenue est classante.
Pour les étudiants du diplôme Echanges PEI
Le rattrapage est autorisé (Note de rattrapage conservée)- Crédits ECTS acquis : 5 ECTS
Le coefficient de l'UE est : 10
La note obtenue rentre dans le calcul de votre GPA.
La note obtenue est classante.
Programme détaillé
Programme prévisionnel (en 10 séances de 1h30 chacune)
1. Introduction aux modèles statistiques
2. Méthodes d'estimation: méthodes des moments, M-estimateurs, Z-estimateurs, maximum de vraisemblance, modèle linéaire et moindres carrés.
3. Construction des tests: problème, risque de 1ère et 2nde espèce, construction de tests classiques (tests de Fisher, de Student), p-valeur d'une famille de tests, liens avec les intervalles de confiance
4. Décision statistique: perte, risque, optimalité. Application à l'estimation sans biais: bornes inférieures du risque quadratique (borne de Cramér-Rao), efficacité au sens de Fisher.
5. Décision statistique et tests. Points de vue non-asymptotique, Neyman-Pearson, p-valeur et lien avec les intervalles de confiance.
6. Introduction à la statistique asymptotique: rappel des différents modes de convergence, loi des grands nombres et théorème de limite centrale (conditions de Lindeberg-Levy pour les tableaux), méthode-delta et applications pour la construction d'intervalles de confiance
7. Théorie asymptotique des M-estimateurs et Z-estimateurs (consistance et normalité asymptotique). Notion d'efficacité asymptotique et ses limites.
8. Tests asymptotiques. Convergence d'un test, tests de modèles (Wald, Rao, rapports de vraisemblances généralisés), tests d'adéquations à un modèle paramétrique, test du Chi-deux.
9. Introdution à l'apprentissage statistique: règle de classifications (perceptron, réseaux de neurones), probabilité d'erreur, minimisation du risque empirique, théorie PAC
10. Théorie de Vapnik-Chernovenkis: contrôle du risque empirique, dimension de Vapnik-Chervonenkis (VC), calcul des dimensions VC (perceptron, réseaux de neurones), applications au choix de classes de règles de classification