Descriptif
L'analyse de données moderne s'appuie sur des langages de haut niveau comme Python ou R pour la manipulation et le traitement des données. Toutefois, derrière les bibliothèques standard comme Scikit-Learn se cachent des implémentations dans des langages de bas niveau comme C ou C++ pour une exécution optimisée et une gestion efficace des ressources mémoire ou de calcul.
Références:
En analyse de données :
- Hastie, Tibshirani, Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer, 2017.
- Scott and Stain: Multi-dimensional Density Estimation. In Handbook of Statistics, volume 23 (Data Mining and Computational Statistics), 2004.
En C++ :
- Stroustrup. The C++ Programming Language (4th ed.). Addison-Wesley, 2013.
- Weiss: C++ for Java Programmers. Prentice Hall, 2003.
Objectifs pédagogiques
L'objectif de ce cours est double : d'une part, se familiariser avec certaines des techniques standard d'analyse de donnéés et d'apprentissage machine ; d'autre part, acquérir une compétence en programmation C/C++ qui permette à terme aux élèves d'adapter les implémentations bas niveau existantes à leurs besoins spécifiques.
effectifs minimal / maximal:
/240Diplôme(s) concerné(s)
Parcours de rattachement
Pour les étudiants du diplôme Non Diplomant
Vous devez avoir validé l'équation suivante : 1 parmi INF411, INF371
Prérequis: INF371 ou INF411 Recommandés : MAP433 et INF421
Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique
Vous devez avoir validé l'équation suivante : UE INF371 Ou UE INF411
Niveau requis en informatique : INF371 ou INF411 Cours recommandés : MAP433 et INF421
Format des notes
Numérique sur 20Littérale/grade réduitPour les étudiants du diplôme Non Diplomant
Le rattrapage est autorisé (Note de rattrapage conservée)- Crédits ECTS acquis : 5 ECTS
Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique
Le rattrapage est autorisé (Note de rattrapage conservée)- Crédits ECTS acquis : 5 ECTS
Le coefficient de l'UE est : 10
La note obtenue rentre dans le calcul de votre GPA.
La note obtenue est classante.
Programme détaillé
Détail des séances (analyse de données / C++):
1. Introduction à la science des données / C++ comme du C (1/2)
2. Recherche de plus proches voisins / C++ comme du C (2/2)
3. Clustering par k-moyennes / classes (1/2)
4. Clustering hiérarchique / classes (2/2)
5. Estimation de densité / héritage
6. Apprentissage supervisé et prédicteurs k-NN / généricité
7. Modèles linéaires pour la régression / STL
8. Modèles linéaires pour la classification / -
9. Introduction aux réseaux de neurones / C++11
10. Extraction de features et réduction de dimension / -