Descriptif
Ce cours consiste en la présentation de méthodes statistiques avancées, encore peu utilisées en sciences sociales et/ou peu abordées dans le cursus à l’Ensae, mais qui se révèlent très performantes et tout à fait complémentaires avec une formation en économétrie. Le cours se composera de 3 modules de 9 heures, chaque module abordant une méthode de manière pratique et interactive, à partir de l’analyse de données empiriques à l’aide de logiciels spécialisés.
A l’issue de ce cours, les étudiants doivent être capable :
-de comprendre l’utilisation des méthodes abordées en cours dans des articles de sociologie, d’en évaluer les apports et les limites ;
-de mettre en œuvre de manière pertinente les méthodes abordées en cours à partir de données empiriques.
Plan
- Analyse en classes latentes (ACL) et modèles de mélange – une vaste famille d’approches probabilistes de la classification – dont l’ACL fera l’objet d’attention de ce module – qui permettent l’évolution de l’approche algorithmique, heuristique et géométrique (e.g., K-Means, Classification hiérarchique, ACM) vers un traitement statistique d’hypothèses préalables sur des données complexes et des populations hétérogènes.
- Topic model – ces modèles de classification mixte développés pour l'analyse du langage peuvent être employés avec de nombreux types de données, et sont notamment performant sur des matrices sparse comportant un grand nombre de colonnes, comme les tableaux de distributions des mots dans des documents. On présentera l'algorithme le plus central, latent dirichlet allocation (LDA) ainsi que des modèles plus récents employés en sciences sociales (Structural Topic Models).
- Modèles multiniveaux – ces modèles permettent d’étudier des données hiérarchisées (par exemple, élèves au sein de classes, patients au sein d’hôpitaux) en tenant compte de l’influence d’effets contextuels sur les phénomènes étudiés, au-delà de l’effet des caractéristiques individuelles.
Diplôme(s) concerné(s)
Parcours de rattachement
Format des notes
Numérique sur 20Littérale/grade réduitPour les étudiants du diplôme MScT-Data and Economics for Public Policy (DEPP)
Le rattrapage est autorisé (Max entre les deux notes)- Crédits ECTS acquis : 3 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Programme détaillé
1. Multinomial models (2*3h): These models allow the study of hierarchical data (e.g., students in classes, patients in hospitals), taking into account the influence of contextual effects on the phenomena studied, as well as the effect of individual characteristics.
2. Latent class analysis (LCA) and mixture models (3*3h): a comprehensive family of probabilistic approaches to classification and for the statistical treatment of preliminary hypotheses on complex data.
3. Spatial Data and Mapping (3*3h): This module will introduce students to tools (QGIS or ArcGIS, R, Python) to gather, process, and visualize spatial data for sociological research. Example data and exercises may include mapping and analyzing Airbnb properties, local businesses, gentrification, and/or ethnoracial composition.