Descriptif
La quantité de données produites dans les sciences de l'environnement (énergie et climat) ouvre la voie à de nouvelles applications. Bien que les méthodes statistiques traditionnelles restent essentielles, les méthodes avancées d'apprentissage automatique sont de plus en plus nécessaires pour donner un sens aux megadonnées, que ce soit pour les analyser ou pour faire des prédictions. L'un des objectifs de l'apprentissage automatique est d'extraire des modèles identifiables de ces ensembles de données complexes. Ces modèles peuvent ensuite être utilisés pour prendre des décisions réfléchies. Un autre objectif est de modéliser les relations entre différentes variables, puis d'utiliser ces modèles pour prédire une variable à partir d'informations sur l'autre.
Exemple de jeux de données :
- Si nous voulons optimiser la performance énergétique d'un bâtiment, nous pouvons placer des capteurs à différents endroit du bâtiment qui noud donneront une bonne vision
- Le GIEC fournit des prévisions de la température moyenne pour les 100 prochaines années. prochaines années. Ces prévisions sont basées sur environ 30 prévisions réalisées par des modèles complexes. L'apprentissage automatique permet de repérer des modèles dans ce jeux de données.
LIEN AVEC LES OBJECTIFS DE DEVELOPPEMENT DURABLE (ODD)
- ODD 7 : Garantir l'accès à une énergie abordable, fiable, durable et moderne pour tous
- ODD 13 : Prendre des mesures urgentes pour lutter contre le changement climatique et ses conséquences
Comment ce cours prend-il en compte ces ODD ?
L'objectif de ce cours est d'acquérir les bases de l'apprentissage automatique afin d'appliquer ces méthodes à des problèmes liés à la science du climat et à l'étude des systèmes énergétiques. Ces deux thématiques sont liées du fait que la consommation d'énergie et la production d'énergie renouvelable sont directement affectées par les conditions météorologiques et les changements climatiques à long terme. Les systèmes climatique et énergétique partage donc des propriétés communes telles qu'être complexe, être étendu dans l'espace et variable. Par ailleurs, leur étude traite en particulier de l'extraction d'informations à partir de jeux de données volumineux. Ainsi, bien que ce ne soit pas l'objectif principal de ce cours, les étudiants apprennent des méthodes qui peuvent s'avérer utiles pour améliorer notre compréhension du système climatique et de son interaction avec les sociétés et pour aider à gérer les systèmes énergétiques avec une plus grande part d'énergies renouvelables variables.
L'objectif de ce cours est de fournir une introduction à l'apprentissage automatique afin d'aider les étudiants à appliquer des méthodes pertinentes pour analyser des jeux de données spécifiques. Nous aborderons différentes famille de méthodes supervisées et non supervisées, tout en fournissant une approche générale pour valider et tester les résultats. Nous encourageons les étudiants à développer leur esprit critique lorsqu'ils sont confrontés à un nouveau jeu de données et qu'ils appliquent un méthode afin de tirer des conclusions fiables. Nous illustrons ce cours avec des exemples en sciences de l'environnement. Ces jeux de données correspondent à des cas concrets d'analyse présentés sous forme de notebook IPhthon.
PREREQUIS
- Analyse de données élémentaire en Python avec
- Algèbre linéaire ()
- Eléments de probabilités et de statistiques ()
MODALITES D'EVALUATION
- 25% participation (petits QCM en début de cours)
- 25% exercice de codage et d'analyse et questions de cours à mi-semestre
- 50% présentation finale avec notebook final et implication dans le projet.
LANGUE
Anglais
effectifs minimal / maximal:
/80Diplôme(s) concerné(s)
- Programmes d'échange internationaux
- M2 DS - Data Science
- M2 WAPE - Eau, Pollution de l'Air et Energies
- Non Diplomant
- Titre d’Ingénieur diplômé de l’École polytechnique
- MScT-Energy Environment : Science Technology & Management
Parcours de rattachement
Objectifs de développement durable
ODD 7 Energie propre et d’un coût abordable, ODD13 Mesures relatives à la lutte contre les changements climatiques.Pour les étudiants du diplôme Programmes d'échange internationaux
- Elementary data analysis in Python with numpy, pandas and matplotlib,
- Linear algebra (linear systems, inverse, eigenvalues and eigenvectors),
- Elements of probabilities and statistics (probability distribution and density, random variable, conditional expectation, variance, covariance, sample estimates).
Pour les étudiants du diplôme M2 WAPE - Eau, Pollution de l'Air et Energies
- Elementary data analysis in Python with numpy, pandas and matplotlib,
- Linear algebra (linear systems, inverse, eigenvalues and eigenvectors),
- Elements of probabilities and statistics (probability distribution and density, random variable, conditional expectation, variance, covariance, sample estimates).
Pour les étudiants du diplôme Non Diplomant
- Elementary data analysis in Python with numpy, pandas and matplotlib,
- Linear algebra (linear systems, inverse, eigenvalues and eigenvectors),
- Elements of probabilities and statistics (probability distribution and density, random variable, conditional expectation, variance, covariance, sample estimates).
Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique
- Elementary data analysis in Python with numpy, pandas and matplotlib,
- Linear algebra (linear systems, inverse, eigenvalues and eigenvectors),
- Elements of probabilities and statistics (probability distribution and density, random variable, conditional expectation, variance, covariance, sample estimates).
Pour les étudiants du diplôme MScT-Energy Environment : Science Technology & Management
Vous devez avoir validé l'équation suivante : UE PHY_50456_EP
- Elementary data analysis in Python with numpy, pandas and matplotlib,
- Linear algebra (linear systems, inverse, eigenvalues and eigenvectors),
- Elements of probabilities and statistics (probability distribution and density, random variable, conditional expectation, variance, covariance, sample estimates).
Format des notes
Numérique sur 20Littérale/grade réduitPour les étudiants du diplôme M2 DS - Data Science
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 3 ECTS
Pour les étudiants du diplôme Non Diplomant
Vos modalités d'acquisition :
- 25% participation (short in-class MCQs at beginning of class),
- 25% mid-course coding and analysis exercise and course questions,
- 50% final presentation including final notebook and involvment in project.
- Crédits ECTS acquis : 5 ECTS
Pour les étudiants du diplôme MScT-Energy Environment : Science Technology & Management
Vos modalités d'acquisition :
- 25% participation (short in-class MCQs at beginning of class),
- 25% mid-course coding and analysis exercise and course questions,
- 50% final presentation including final notebook and involvment in project.
- Crédits ECTS acquis : 4 ECTS
Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique
Vos modalités d'acquisition :
- 25% participation (short in-class MCQs at beginning of class),
- 25% mid-course coding and analysis exercise and course questions,
- 50% final presentation including final notebook and involvment in project.
- Crédits ECTS acquis : 5 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Programmes d'échange internationaux
Vos modalités d'acquisition :
- 25% participation (short in-class MCQs at beginning of class),
- 25% mid-course coding and analysis exercise and course questions,
- 50% final presentation including final notebook and involvment in project.
- Crédits ECTS acquis : 5 ECTS
Pour les étudiants du diplôme M2 WAPE - Eau, Pollution de l'Air et Energies
Vos modalités d'acquisition :
- 25% participation (short in-class MCQs at beginning of class),
- 25% mid-course coding and analysis exercise and course questions,
- 50% final presentation including final notebook and involvment in project.
- Crédits ECTS acquis : 3 ECTS
Programme détaillé
COURS
- Introduction générale et bases de Python
- Problème de l'apprentissage supervisé
- Méthode des moindres carrés ordinaire
- Surapprentissage/sous-apprentissage et dilemme biais-variance
- Régularisation, sélection et évaluation des modèles
- Classification I : Modèles génératifs
- Apprentissage non supervisé avec un intérêt particulier pour l'analyse en composantes principales
- Introduction aux réseaux neuronaux
TD
Après chaque classe d'environ 45 minutes, les étudiants travaillent sur un TD pendant environ 45 minutes où ils vont coder des applications sur de réelles données, analyser et discuter des résultats. Les professeurs assistent pendans les TD et font en sorte que tous les étudiants soient en mesure de réaliser les objectfs des TD.
PROJETS
Les étudiants choisissent, par groupe de deux, des projets basés sur des applications sur des problèmes environnementaux. L'objectif de ces projets est d'appliquer la méthodologie de l'apprentissage statistique depuis le traitement des données d'entrée jusqu'à l'évaluation des capacités de prédiction d'un modèle. Le but est de maîtriser de l'approche globale plutôt que d'appliquer les modèles les plus sophistiqués.
SUPPORT TECHNIQUE
Tous les exemples, TD et projets sont basés sur la bibliothèque Python Scikit-Learn. Les étudiants sont donc invités à coder en Python, mais ils n'est pas nécessaire d'avoir des connaissances en Scikit-Learn pour suivre ce cours (voir Pré-requis). Les étudiants travaillent soit sur un JupyterHub, un ordinateur de l'Ecole, ou sur leur ordinateur personnel.
Notez que l'utilisation d'outil d'IA générative tel que ChatGPT est prohibée pour l'ensemble de l'enseignement et de l'examen.