v2.11.0 (5802)

Cours scientifiques - CSC_43042_EP : Algorithmes pour l'analyse de données en Python

Domaine > Informatique.

Descriptif

L'analyse de données est un sujet transverse à cheval sur l'algorithmique, les statistiques et l'optimisation. Elle s'appuie sur des langages de haut niveau comme Python ou R pour la manipulation et le traitement des données. Ce cours introductif abordera l'analyse de données à la fois dans ses aspects théoriques et appliqués.

Références:

  • Hastie, Tibshirani, Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer, 2017.
  • Scott and Stain: Multi-dimensional Density Estimation. In Handbook of Statistics, volume 23 (Data Mining and Computational Statistics), 2004.

Objectifs pédagogiques

L'objectif de ce cours est double : d'une part, se familiariser avec les concepts et algorithmes classiques pour la fouille de données et  l'apprentissage machine (l'apprentissage profond, qui est un sujet en soi, étant laissé à des cours ultérieurs); d'autre part, acquérir une compétence pratique de l'analyse de données au travers de l'implémentation des différentes méthodes en Python et de l'usage de bibliothèques standard (notamment scikit-learn) pour le traitement de jeux de données synthétiques ou réelles.

10 blocs ou créneaux

effectifs minimal / maximal:

1/550

Diplôme(s) concerné(s)

Pour les étudiants du diplôme Programmes d'échange internationaux

Niveau requis en informatique : INF371 ou INF411 Cours recommandés : MAP433 et INF421

Pour les étudiants du diplôme Non Diplomant

Vous devez avoir validé l'équation suivante : 1 parmi CSC_41011_EP, CSC_3X071_EP

Niveau requis en informatique : INF371 ou INF411 Cours recommandés : MAP433 et INF421

Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique

Vous devez avoir validé l'équation suivante : UE CSC_3X071_EP Ou UE CSC_41011_EP

Niveau requis en informatique : INF371 ou INF411 Cours recommandés : MAP433 et INF421

Format des notes

Numérique sur 20

Littérale/grade réduit

Pour les étudiants du diplôme Non Diplomant

Vos modalités d'acquisition :

Exam final. TDs notés. Projet facultatif.

Le rattrapage est autorisé (Note de rattrapage conservée)
    L'UE est acquise si note finale transposée >= C
    • Crédits ECTS acquis : 5 ECTS

    Le coefficient de l'UE est : 10

    Pour les étudiants du diplôme Programmes d'échange internationaux

    Vos modalités d'acquisition :

    Exam final. TDs notés. Projet facultatif.

    Le rattrapage est autorisé (Note de rattrapage conservée)
      L'UE est acquise si note finale transposée >= C
      • Crédits ECTS acquis : 5 ECTS

      Le coefficient de l'UE est : 10

      La note obtenue rentre dans le calcul de votre GPA.

      Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique

      Vos modalités d'acquisition :

      Exam final. TDs notés. Projet facultatif.

      Le rattrapage est autorisé (Note de rattrapage conservée)
        L'UE est acquise si note finale transposée >= C
        • Crédits ECTS acquis : 5 ECTS

        Le coefficient de l'UE est : 10

        La note obtenue rentre dans le calcul de votre GPA.

        La note obtenue est classante.

        Programme détaillé

        Détail des séances :

        1. Introduction à la science des données / Recherche de plus proches voisins

        2. Clustering par k-moyennes

        3. Clustering hiérarchique

        4. Estimation de densité

        5. Apprentissage supervisé et prédicteurs k-NN

        6. Modèles linéaires pour la régression

        7. Modèles linéaires pour la classification

        8. Méthodes ensemblistes et forêts aléatoires

        9. Introduction aux réseaux de neurones

        10. Extraction de features et réduction de dimension

        Mots clés

        Apprentissage automatique ; fouille de données ; Python ; scikit-learn

        Méthodes pédagogiques

        Amphis et TDs + projet
        Veuillez patienter