Durée
25h Th, 10h Pr, 45h Proj.
Nombre de crédits
Enseignant
Langue(s) de l'unité d'enseignement
Langue anglaise
Organisation et évaluation
Enseignement au deuxième quadrimestre
Horaire
Unités d'enseignement prérequises et corequises
Les unités prérequises ou corequises sont présentées au sein de chaque programme
Contenus de l'unité d'enseignement
Il existe de nombreux problèmes de prise de décision qui peuvent être formalisés comme des problèmes pour lesquels il faut maximiser une récompense numérique (ou minimiser de manière équivalente un coût) en jouant avec un environnement (i) stochastique ou (partiellement) inconnu, (ii) présentant peu de structure (par exemple un environnement non-linéaire ou convexe), (iii) ayant une nature séquentielle (par exemple, une séquence de décisions doit être prise pour atteindre un objectif) et/ou (iv) étant advervarial (par exemple, un adversaire prend ses décisions afin de minimiser votre gain comme c'est le cas par exemple au poker).
Des exemples typiques de tels problèmes sont les suivants:
- La conception d'intelligences artificielles capables d'apprendre à jouer à des jeux informatiques,
- Le placement de publicités sur les pages Web pour maximiser le nombre de clics,
- Contrôler une fusée de manière à atteindre en toute sécurité une cible avec un minimum de carburant,
- La synthèse des stratégies gagnantes pour jouer avec le marché boursier,
- La conception d'intelligences artificielles pour les robots autonomes,
- La conception d'expériences cliniques.
Acquis d'apprentissage (objectifs d'apprentissage) de l'unité d'enseignement
À la fin de la classe, l'élève devrait pouvoir (i) être familier avec une large gamme de techniques pour résoudre des problèmes de contrôle optimal (ii) utiliser ces techniques pour résoudre des problèmes de contrôle optimal et comprendre leurs principales caractéristiques (iii) avoir la capacité de lire et de comprendre une quantité importante de documents scientifiques consacrés à ce domaine de recherche et, en particulier, ceux qui se rapportent aux approches basées sur l'apprentissage de renforcement (également appelées approches basées sur l'échantillonnage) pour résoudre des problèmes de décision séquentielle.
Parmi les différentes techniques qui seront couvertes par cette classe, on peut citer
a. La programmation dynamique et les techniques de recherche directe de politiques pour les processus de décision de Markov (MDP)
b. Les techniques d'apprentissage par renforcement pour les MDP
c. Les techniques pour résoudre le compromis Exploration / Exploitation, en mettant particulièrement l'accent sur celles qui s'appliquent aux problèmes de bandits manchots.
d. Les techniques de Monte-Carlo Tree Search pour les environnements mono et multi-agents.
e. Les techniques de programmation stochastique multi-étages pour les problèmes ayant de grands espaces d'action.
Ce cours contribue aux acquis d'apprentissage I.2, II.1, II.2, II.3, III.1, IV.1, IV.3, VI.1, VI.2, VI.3, VII.2, VII.5 du programme d'ingénieur civil électricien.
Ce cours contribue aux acquis d'apprentissage I.2, II.1, II.2, II.3, III.1, IV.1, VI.1, VI.2, VI.3, VII.2, VII.5 du programme d'ingénieur civil en informatique.
Savoirs et compétences prérequis
Connaissance de base en théorie de sytèmes, statistiques, optimisation, apprentissage automatique.
Des compétences en programmation sont également nécessaires.
Activités d'apprentissage prévues et méthodes d'enseignement
Les classes comprendront différentes parties: des cours théoriques, des analyses d'articles scientifiques et des exercices. La matière théorique sera enseignée en priviliégeant l'apprentissage inversé.
Les étudiants devront également travailler tout au long de l'année sur des projets visant à mettre en oeuvre sur des exemples assez simples les méthodologies apprises au cours de l'année.
Mode d'enseignement (présentiel, à distance, hybride)
Enseignement présentiel
Lectures recommandées ou obligatoires et notes de cours
L'ensemble du matériel d'enseignement sera accessible sur la page web du cours, voir: http://blogs.ulg.ac.be/damien-ernst/teaching/
Modalités d'évaluation et critères
Toutes sessions confondues :
- En présentiel
évaluation orale
- En distanciel
travail à rendre
- Si évaluation en "hybride"
préférence en présentiel
Explications complémentaires:
L'évaluation comprend deux parties: une évaluation continue pendant l'année qui comptera pour 50% des points et un examen oral en fin d'année.
Stage(s)
Possiblité pour les étudiants motivés de faire un stage de recherche dans ce domaine passionnant de l'intelligence artificielle.