Intelligence Artificielle - Game Playing - Bandits - Reinforcement Learning - AgroParisTech

Homepage

Teaching
(mostly in French)

Research contracts

Cours 2A : La place des bandits en Intelligence Artificielle.
Résolution de problèmes, décisions en milieu incertain et apprentissage par renforcement

Année 2025-2026

Enseignants : Antoine Cornuéjols, Christine Martin

Dernière mise à jour : 20-Mars-2026

Organisation du cours :

Contrôle :

Un petit projet informatique

Documents :
- Les transparents mis à disposition sur le site

Programme prévisionnel :

Dates :

Programme :

Exercices et notes diverses :

16-03-2026

13h00 - 14h30 (C.2.1.45)

(Antoine Cornuéjols)

• Introduction au cours

• Bref historique de l'Intelligence Artificielle

• Situation de ce que nous allons voir en cours par rapport à cet historique

17-03-2026

09h00 - 12h15 (C.2.1.45 et iC2.1.48)

(Antoine Cornuéjols)

• L'algorithme MinMax pour les jeux à information parfaite

• L'algorithme Alpha-Beta pour accélérer MinMax

Examen du code de l'algorithme MinMax pour le jeu de Tic-Tac-Toe

TicTacToe.py

Adaptation au jeu de dodgem

17-03-2026

14h00 - 17h15 (C.2.1.45 et iC2.1.48)

(Antoine Cornuéjols)

• Le problème des bandits. Comment optimiser le compromis exploration vs. exploitation

• Une entrée de blog sur UCB et les bandits multi-bras

• Et pour ceux qui veulent aller plus loin sur UCB et les bandits multi-bras

• Article sur MCTS A Survey of Monte Carlo Tree Search Methods (2012)

• Article sur MCTS plus récent : Monte Carlo Tree Search: A Review of Recent Modifications and Applications (2021)

18-03-2026

09h00 - 12h15 (C.2.1.45 et iC2.1.48)

(Antoine Cornuéjols)

• L'Algorithme Monte-Carlo Tree Search (MCTS). Comment optimiser le compromis exploration vs. exploitation dans l'exploration d'un arbre.

TP pour comparer des algorithmes et des heuristiques d'évaluation

18-03-2026

14h00 - 17h15 (C.2.1.45 et iC2.1.48)

(Antoine Cornuéjols)

• Introduction à l'apprentissage par renforcement avec l'algorithme du Q-learning

1er TP sur l'apprentissage par renforcement

20-03-2026

09h00 - 12h15 (C.2.1.45 et iC2.1.48)

(Antoine Cornuéjols)

• L'apprentissage par renforcement en espace continu

• Présentation de AlphaGo zero

• Séance de projet

TP_reinforcement_learning à rendre.

20-03-2026

14h00 - 17h15 (C.2.1.45 et iC2.1.48)

(Antoine Cornuéjols)

• Séances de projet

Sujet du 2ème TP noté

bandits_dog_sheeps.py

Sources bibliographiques et url :

Livres sur l'intelligence artificielle en général :

Callan, Rob (2003) "Artificial Intelligence", Palgrave Macmillan.
Millington, I. & Funge, J. (2009) "Artificial Intelligence for Games", Morgan Kaufmann.
Nilsson, Nils (1998) "Artificial Intelligence: A New Synthesis", Morgan Kaufmann.
Pumperla, Max & Ferguson, Kevin, (2019) "Deep Learning and the Game of Go", Manning.
Russel, S. & Norvig, P. (2021, 4th ed.) "Artificial Intelligence: A Modern Approach"

Et pour ceux intéressés par l'histoire de la discipline :

Crevier, Richard (1999) "A la recherche de l'intelligence artificielle". Champs, Flammarion.
Nilsson, Nils (2010) "The Quest for Artificial Intelligence". Cambridge University Press.