Descriptif
L'analyse de données est un sujet transverse à cheval sur l'algorithmique, les statistiques et l'optimisation. Elle s'appuie sur des langages de haut niveau comme Python ou R pour la manipulation et le traitement des données. Ce cours introductif abordera l'analyse de données à la fois dans ses aspects théoriques et appliqués.
Références:
- Hastie, Tibshirani, Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer, 2017.
- Scott and Stain: Multi-dimensional Density Estimation. In Handbook of Statistics, volume 23 (Data Mining and Computational Statistics), 2004.
Objectifs pédagogiques
L'objectif de ce cours est double : d'une part, se familiariser avec les concepts et algorithmes classiques pour la fouille de données et l'apprentissage machine (l'apprentissage profond, qui est un sujet en soi, étant laissé à des cours ultérieurs); d'autre part, acquérir une compétence pratique de l'analyse de données au travers de l'implémentation des différentes méthodes en Python et de l'usage de bibliothèques standard (notamment scikit-learn) pour le traitement de jeux de données synthétiques ou réelles.
effectifs minimal / maximal:
1/550Diplôme(s) concerné(s)
Pour les étudiants du diplôme Programmes d'échange internationaux
Niveau requis en informatique : INF371 ou INF411 Cours recommandés : MAP433 et INF421
Pour les étudiants du diplôme Non Diplomant
Vous devez avoir validé l'équation suivante : 1 parmi CSC_41011_EP, CSC_3X071_EP
Niveau requis en informatique : INF371 ou INF411 Cours recommandés : MAP433 et INF421
Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique
Vous devez avoir validé l'équation suivante : UE CSC_3X071_EP Ou UE CSC_41011_EP
Niveau requis en informatique : INF371 ou INF411 Cours recommandés : MAP433 et INF421
Format des notes
Numérique sur 20Littérale/grade réduitPour les étudiants du diplôme Non Diplomant
Vos modalités d'acquisition :
Exam final. TDs notés. Projet facultatif.
Le rattrapage est autorisé (Note de rattrapage conservée)- Crédits ECTS acquis : 5 ECTS
Le coefficient de l'UE est : 10
Pour les étudiants du diplôme Programmes d'échange internationaux
Vos modalités d'acquisition :
Exam final. TDs notés. Projet facultatif.
Le rattrapage est autorisé (Note de rattrapage conservée)- Crédits ECTS acquis : 5 ECTS
Le coefficient de l'UE est : 10
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique
Vos modalités d'acquisition :
Exam final. TDs notés. Projet facultatif.
Le rattrapage est autorisé (Note de rattrapage conservée)- Crédits ECTS acquis : 5 ECTS
Le coefficient de l'UE est : 10
La note obtenue rentre dans le calcul de votre GPA.
La note obtenue est classante.
Programme détaillé
Détail des séances :
1. Introduction à la science des données / Recherche de plus proches voisins
2. Clustering par k-moyennes
3. Clustering hiérarchique
4. Estimation de densité
5. Apprentissage supervisé et prédicteurs k-NN
6. Modèles linéaires pour la régression
7. Modèles linéaires pour la classification
8. Méthodes ensemblistes et forêts aléatoires
9. Introduction aux réseaux de neurones
10. Extraction de features et réduction de dimension