Descriptif
Ce cours explore le développement d'agents autonomes, c'est-à-dire des systèmes qui perçoivent, apprennent et agissent de manière indépendante pour atteindre des objectifs dans des environnements incertains et dynamiques. Il s'appuie sur les fondements de la prise de décision probabiliste, de l'inférence et de la planification. Nous développons les processus de décision de Markov et les concepts clés associés. Pour acquérir des agents autonomes, nous nous tournons principalement vers les algorithmes d'apprentissage par renforcement, notamment le Q-Learning profond (et ses variantes), les architectures Policy Gradient et Actor Critic. Nous étudions également des méthodologies telles que l'apprentissage basé sur les modèles, l'optimisation sans gradient, l'apprentissage par imitation et d'autres approches pour obtenir des agents capables de prendre des décisions séquentielles, telles que le contrôle basé sur les modèles et les transformateurs de décision. Nous abordons également des sujets connexes et spécialisés tels que l'apprentissage par renforcement hors ligne, l'apprentissage par renforcement distributionnel, ainsi que l'apprentissage par imitation et par renforcement inverse. Nous nous concentrons sur la construction d'algorithmes basés sur des architectures neuronales profondes modernes, qui permettent une évolutivité face à des problèmes concrets. Nous ne perdons pas de vue les implications pratiques des choix architecturaux et algorithmiques, et soulignons l'importance de bien formuler les problèmes d'agents autonomes et de prise de décision séquentielle. Les étudiants mettront en œuvre, étudieront et compareront des algorithmes dans différents contextes. Un projet de cours (50 %) constitue l'un des principaux éléments de notation, ainsi que des travaux pratiques (50 %).
Diplôme(s) concerné(s)
- MScT-Internet of Things : Innovation and Management Program (IoT)
- Programmes d'échange internationaux
- Non Diplomant
- M2 CPS - Système Cyber Physique
- Titre d’Ingénieur diplômé de l’École polytechnique
- M1 CPS - Système Cyber Physique
- MScT-Cybersecurity (CyS)
- MScT-Artificial Intelligence and Advanced Visual Computing
Parcours de rattachement
Pour les étudiants du diplôme MScT-Internet of Things : Innovation and Management Program (IoT)
Prérequis : un cours tel que Machine Learning et/ou Deep Learning et les concepts associés à ces cours, ainsi que la connaissance de Python et de ses bibliothèques scientifiques.
Pour les étudiants du diplôme Programmes d'échange internationaux
Prérequis : un cours tel que Machine Learning et/ou Deep Learning et les concepts associés à ces cours, ainsi que la connaissance de Python et de ses bibliothèques scientifiques.
Pour les étudiants du diplôme Non Diplomant
Prérequis : un cours tel que Machine Learning et/ou Deep Learning et les concepts associés à ces cours, ainsi que la connaissance de Python et de ses bibliothèques scientifiques.
Pour les étudiants du diplôme M2 CPS - Système Cyber Physique
Prérequis : un cours tel que Machine Learning et/ou Deep Learning et les concepts associés à ces cours, ainsi que la connaissance de Python et de ses bibliothèques scientifiques.
Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique
Prérequis : un cours tel que Machine Learning et/ou Deep Learning et les concepts associés à ces cours, ainsi que la connaissance de Python et de ses bibliothèques scientifiques.
Pour les étudiants du diplôme M1 CPS - Système Cyber Physique
Prérequis : un cours tel que Machine Learning et/ou Deep Learning et les concepts associés à ces cours, ainsi que la connaissance de Python et de ses bibliothèques scientifiques.
Pour les étudiants du diplôme MScT-Cybersecurity (CyS)
Prérequis : un cours tel que Machine Learning et/ou Deep Learning et les concepts associés à ces cours, ainsi que la connaissance de Python et de ses bibliothèques scientifiques.
Pour les étudiants du diplôme MScT-Artificial Intelligence and Advanced Visual Computing
Prérequis : un cours tel que Machine Learning et/ou Deep Learning et les concepts associés à ces cours, ainsi que la connaissance de Python et de ses bibliothèques scientifiques.
Format des notes
Numérique sur 20Littérale/grade réduitPour les étudiants du diplôme MScT-Internet of Things : Innovation and Management Program (IoT)
Vos modalités d'acquisition :
Devoirs (50% au total) et un projet (50%, évaluation orale).
Le rattrapage est autorisé (Note de rattrapage conservée)- Crédits ECTS acquis : 4 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme MScT-Artificial Intelligence and Advanced Visual Computing
Vos modalités d'acquisition :
Devoirs (50% au total) et un projet (50%, évaluation orale).
Le rattrapage est autorisé (Note de rattrapage conservée)- Crédits ECTS acquis : 4.5 ECTS
Pour les étudiants du diplôme M2 CPS - Système Cyber Physique
Vos modalités d'acquisition :
Devoirs (50% au total) et un projet (50%, évaluation orale).
Le rattrapage est autorisé (Note de rattrapage conservée)
- Crédits ECTS acquis : 5 ECTS
Pour les étudiants du diplôme MScT-Cybersecurity (CyS)
Vos modalités d'acquisition :
Devoirs (50% au total) et un projet (50%, évaluation orale).
Le rattrapage est autorisé (Note de rattrapage conservée)
- Crédits ECTS acquis : 4 ECTS
Pour les étudiants du diplôme Non Diplomant
Vos modalités d'acquisition :
Devoirs (50% au total) et un projet (50%, évaluation orale).
Le rattrapage est autorisé (Note de rattrapage conservée)
- Crédits ECTS acquis : 5 ECTS
Pour les étudiants du diplôme Programmes d'échange internationaux
Vos modalités d'acquisition :
Devoirs (50% au total) et un projet (50%, évaluation orale).
Le rattrapage est autorisé (Note de rattrapage conservée)
- Crédits ECTS acquis : 4 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Titre d’Ingénieur diplômé de l’École polytechnique
Vos modalités d'acquisition :
Devoirs (50% au total) et un projet (50%, évaluation orale).
Le rattrapage est autorisé (Note de rattrapage conservée)
- Crédits ECTS acquis : 5 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme M1 CPS - Système Cyber Physique
Vos modalités d'acquisition :
Devoirs (50% au total) et un projet (50%, évaluation orale).
L'UE est acquise si Note finale >= 10
- Crédits ECTS acquis : 5 ECTS
Programme détaillé
1. Raisonnement probabiliste et prise de décision
Nous étudions les modèles graphiques probabilistes et les réseaux bayésiens comme représentation de la connaissance et posons le cadre de la résolution d'un processus de décision markovien comme tâche d'inférence probabiliste. Nous abordons brièvement des concepts tels que l'échantillonnage d'importance et les méthodes de Monte-Carlo séquentielles.
Dans le TD, nous dériverons et implémenterons un modèle de réseau bayésien, que nous utiliserons comme représentation de la connaissance pour raisonner et prendre des décisions pour un agent dans un environnement/scénario à une seule étape.
2. Apprentissage, représentation et planification
Nous nous concentrons sur les architectures de représentations d'apprentissage modernes adaptées à la modélisation séquentielle. Nous abordons la planification et des sujets tels que la recherche d'architecture et la modélisation séquentielle, par exemple les transformateurs de décision.
3. Bandits et recherche arborescente de Monte-Carlo
L'étude des Bandits constitue une incursion intéressante dans la prise de décision séquentielle. Ce cadre couvre de nombreuses applications importantes (par exemple, en médecine, en finance et en marketing), mais il sert également de passerelle vers les agents autonomes, notamment compte tenu du compromis exploration/exploitation. À partir de Bandits, nous lançons une étude sur la recherche arborescente de Monte-Carlo.
4. Fondamentaux de l'apprentissage par renforcement, Programmation dynamique
Nous présenterons et examinerons les applications de l'apprentissage par renforcement, et aborderons les principaux concepts et intuitions nécessaires à la poursuite des études et des applications dans ce domaine. Nous développerons notamment des processus de décision markoviens (PDM). Le TD comprendra des implémentations d'itérations de valeur et de politique, ainsi que des méthodes de Monte-Carlo pour l'apprentissage par renforcement.
5. Apprentissage par différences temporelles, Q-Learning, Q-Learning profond
Cette semaine, nous procédons sous une contrainte supplémentaire (généralement réelle) : nous ne connaissons pas le PDM sous-jacent, c'est-à-dire que nous ne disposons pas d'un modèle de l'environnement. Nous étudierons l'apprentissage par différences temporelles (y compris le Q-Learning et SARSA), en particulier la construction du Q-Learning profond et de ses variantes.
6. Architectures Q-Learning profondes et architectures acteur-critique
Nous nous concentrerons sur les architectures pour le Q-Learning profond et ses variantes (par exemple, avec rejeu d'expériences priorisé), et leur rôle dans les architectures acteur-critique modernes, DDPG, etc.
7. Thèmes d'optimisation
Nous examinerons les différentes approches de développement d'agents autonomes, notamment en tant que problèmes d'optimisation (stochastique, multi-objectif, multimodal, contraint, dynamique, etc.). Ce cours se concentrera plus particulièrement sur les méthodes d'optimisation dynamique utilisables dans la recherche directe de politiques, telles que les méthodes évolutionnaires. En guise de prolongement, et si le temps le permet, nous aborderons également les problèmes multi-objectifs et d'autres méthodes avancées.
8. et 9. Architectures avancées pour agents autonomes
Ayant acquis de solides bases et compte tenu de l'évolution rapide de ce domaine, nous consacrons du temps à l'exploration des méthodes et applications émergentes en apprentissage par renforcement, ainsi qu'aux défis concrets tels que la sécurité et la transférabilité. Nous explorons également des méthodes connexes telles que l'apprentissage par imitation, l'apprentissage par renforcement inverse, et l'apprentissage par renforcement hors ligne et basé sur des modèles, et apprentissage par renforcement distributionnel.