2023-2024 / MATH2021-1

High-dimensional statistics

Durée

30h Th, 15h Pr, 30h Proj.

Nombre de crédits

 Master en science des données, à finalité5 crédits 
 Master : ingénieur civil en science des données, à finalité5 crédits 

Enseignant

Gentiane Haesbroeck

Langue(s) de l'unité d'enseignement

Langue anglaise

Organisation et évaluation

Enseignement au premier quadrimestre, examen en janvier

Horaire

Horaire en ligne

Unités d'enseignement prérequises et corequises

Les unités prérequises ou corequises sont présentées au sein de chaque programme

Contenus de l'unité d'enseignement

Le cours est consacré aux thématiques suivantes:

- Analyse exploratoire des données
- Techniques de réduction de la dimension: Analyse en composantes principales, Multidimensional scaling, tSNE
- Estimation multivariée, avec l'estimation de la matrice de variance covariance comme cas approfondi (estimation classique sous la normalité, estimation régularisée et estimation robuste)
- Régression multiple et modèles linéaires généralisés (e.g. modèles de Poisson et logistique)
- Analyse en composantes indépendantes

 

Acquis d'apprentissage (objectifs d'apprentissage) de l'unité d'enseignement

A l'issue du cours, l'étudiant devra être capable de déterminer quelle technique statistique multivariée doit être utilisée pour réduire la dimension d'un problème, modéliser une variable dépendante en fonction de variables explicatives... 

Savoirs et compétences prérequis

Une formation en statistique univariée est indispensable. Par ailleurs, même si les justifications mathématiques ne sont pas développées en détail, les étudiants doivent connaitre les notions de base de l'algèbre linéaire (vecteur, matrice, déterminant, valeurs et vecteurs propres...).

Activités d'apprentissage prévues et méthodes d'enseignement

La théorie est exposée de manière ex-cathedra. Lors des séances d'exercices, les étudiants sont invités à travailler par eux-mêmes avant une discussion collégiale des résultats/approches. C'est le logiciel R qui est utilisé dans le cadre de ce cours.

Mode d'enseignement (présentiel, à distance, hybride)

Cours donné exclusivement en présentiel


Explications complémentaires:

Le cours est principalement prévu en présentiel mais certaines séances de cours pourraient être exceptionnellement remplacées par une vidéo.


Explications complémentaires:

Lectures recommandées ou obligatoires et notes de cours

Il n'existe pas de notes de cours. Les transparents exploités au cours seront mis en ligne sur la plateforme eCampus. Par ailleurs, pour chaque thème, un livre de référence sera proposé pour de plus amples informations.

Modalités d'évaluation et critères

Examen(s) en session

Toutes sessions confondues

- En présentiel

évaluation écrite ( questions ouvertes )

Travail à rendre - rapport


Explications complémentaires:

Examen(s) en session

Toutes sessions confondues

- En présentiel

évaluation écrite ( questions ouvertes )

Travail à rendre - rapport


Explications complémentaires:

La cote finale est une moyenne pondérée calculée à partir des résultats obtenus aux épreuves suivantes:

-  deux projets réalisés pendant le quadrimestre : les dates de diffusion des énoncés et les dates imposées pour la soumission des projets seront affichées dans Celcat.  

- examen écrit combinant des analyses de données et des applications détaillées/expliquées de  méthodes vues au cours

Lorsque les cotes partielles des deux parties sont chacune supérieures ou égales à 6/20, la moyenne pondérée est calculée sur base des pondérations 50%-50%. Si au moins une des cotes est inférieure à 6/20, la pondération devient 75%-25%, le poids le plus élévé étant attribué à la moins bonne cote.




 

Stage(s)

Remarques organisationnelles et modifications principales apportées au cours

Le cours est enseigné en anglais.

Le local de cours n'étant pas équipé d'un équipement "podcast", les cours donnés en présentiel ne seront pas disponibles sous une autre forme. 

En suivi de commentaires écrits dans l'enquête EVALENS à propos de la durée de l'examen, le professeur souhaite indiquer qu'il est attendu que les étudiants aient réalisé au moins une fois l'ensemble des méthodes vues au cours (c'est d'ailleurs l'objectif des séances d'exercices) avant de venir à l'examen. Le jour de l'examen, les commandes (du logiciel R) utiles doivent être "directement disponibles", l'objectif étant alors de simplement les adapter aux nouvelles données ou au nouveau contexte imposé. 

Contacts

Enseignant: Gentiane HAESBROECK, Institut de Mathématique (B37), g.haesbroeck@ulg.ac.be

Association d'un ou plusieurs MOOCs