v2.11.0 (5509)

PA - C8 - DS-télécom-8 : Machine Learning (télécom)

Descriptif

OBJECTIFS 

Beaucoup d'applications modernes (génomique, finance, e-marketing, etc.) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données s'appelle l'apprentissage statistique («statistical machine-learning»). Il s'agit, in fine, de produire des outils de prédiction et d'aide à la décision dédiés à une application spécifique. L'apparition d'algorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les Support Vector Machines dans le milieu des années 90, a progressivement transformé le champ occupé jusqu'alors par la statistique traditionnelle qui s'appuyait en grande partie sur le prétraitement réalisé par l'opérateur humain. En s'appuyant sur la théorie popularisée par Vapnik (The Nature of Statistical Learning, 1995), un nouveau courant de recherche est né: il se situe à l'interface entre les communautés mathématique et informatique et mobilise un nombre croissant de jeunes chercheurs tournés vers les applications liées à l'analyse de données massives. Dans ce module, on présentera le domaine, ses fondements théoriques, les problèmes qu'il permet d'aborder (apprentissage supervisé/non supervisé, batch/online, par renforcement, multi-tâche, asynchrone, etc.) et les approches algorithmiques les plus populaires. 

«Nothing is more practical than a good theory» - V. Vapnik 

MODALITÉS 

  • 6 séances de Cours/TD de 3h (1h30+1h30) 
  • 1 examen écrit de 3h 

PROGRAMME 

L’objectif du cours est de découvrir les enjeux et paradigmes du "machine learning", une discipline en plein essor à l’interface des mathématiques (probabilités/ statistiques, optimisation) et de l’informatique et qui joue aujourd’hui un rôle majeur en matière d’innovation technologique. Il s’agira ici d’en explorer quelques concepts et techniques essentiels, principalement autour du problème fondamental de la "classification supervisée" (i.e. "reconnaissance de formes"). Il se déroulera sur six séances de 3h incluant: 

  • une partie ‘cours magistral’ lors de laquelle seront formulés les problèmes et 

décrites certaines solutions de l’état de l’art ; 

  • une partie ‘travaux dirigés’ pour les séances d’exercices. 

Séance 1 - 20/09 

  • Introduction générale du cours : repères historiques, enjeux, applications, 

nomenclature des problèmes 

  • Le problème de la classification binaire (reconnaissance de formes) : 

Formalisme – Optimalité Lectures conseillées: Chapitre 2 de (1), Chapitres 1 et 2 de (9), article (4) 

Séance 2 - 27/09 

  • Théorie probabiliste de la classification - Minimisation empirique du risque 
  • Théorie de Vapnik-Chervonenkis – Complexité combinatoire - Moyennes de 

Rademacher 

  • Exercices Lectures conseillées: articles (3) et (4) 

Séance 3 - 04/10 

  • Premières stratégies d’apprentissage supervisé, modélisation et moyennes locales: régression logistique - perceptron - arbres de classification – K-plus proches voisins - réseaux de neurones Lectures conseillées: Chapitres 4 et 9 de (1) 

Séance 4 - 11/10 

  • Evaluation de l’erreur et sélection de modèles : plan expérimental – bootstrap – 

validation croisée – minimisation structurelle du risque 

  • Ensemble Learning: Bagging, Boosting et Forêts Aléatoires Lectures conseillées: Chapitre 7 de (1) 

Séance 5 - 18/10 

  • Les machines à vecteurs support (SVM) : linéaires/non linéaires 
  • «Kernel trick»: ACP, régression Lectures conseillées: (8) et (9) 

Séance 6 - 25/10 

  • Au delà des problèmes d’apprentissage ‘locaux’ (classification, regression, 

estimation de densité): clustering, ranking, détection d’anomalies 

DOCUMENTS PEDAGOGIQUES 

Les «slides» du cours seront disponibles en version électronique. On se réfèrera en particulier aux documents suivants. 

  • Friedman, Hastie & Tibshirani (2009). The Elements of Statistical Learning. Third edition, Springer. Disponible en ligne. 
  • Bousquet, Boucheron & Lugosi (2004). Introduction to statistical learning theory. In O. Bousquet, U.V. Luxburg, G. Rätsch (editors), Advanced Lectures in Machine Learning, Springer, pp. 169-207, 2004. Disponible en ligne. 
  • Bousquet, Boucheron & Lugosi (2004). Concentration Inequalities. In Advanced Lectures in Machine Learning, Springer, pp. 208-240. Disponible en ligne. 
  • Kulkarni, G. Lugosi & S. Venkatesh (1998). Learning Pattern Classification. A Survey. 1948-1998 Special Commemorative Issue of IEEE Transactions on Information Theory, vol.44, 2178-2206. Reprinted in S. Verdú, S.W. McLaughlin (editors.), Information Theory: 50 Years of Discovery, IEEE Press, New York, 1999. Disponible en ligne. 
  • Cesa-Bianchi & Lugosi (2006) Prediction, Learning, and Games. Cambridge. 

University Press. 

  • Devroye, Györfi & Lugosi (1996) A Probabilistic Theory of Pattern Recognition. 

Springer 

  • Györfi, Kohler, Krzyzak & Walk (2002) A Distribution-Free Theory of 

Nonparametric Regression. Springer 

  • Burgess. A Tutorial on SVM for Pattern Recognition. Kluwer. Disponible en ligne. 
  • Vapnik. The Statistical Nature of Learning Theory. Springer. 

Diplôme(s) concerné(s)

Format des notes

Numérique sur 20

Littérale/grade réduit

Pour les étudiants du diplôme M2 Data Sciences

Le rattrapage est autorisé (Max entre les deux notes)
    L'UE est acquise si note finale transposée >= C
    • Crédits ECTS acquis : 3 ECTS
    Veuillez patienter