Les algorithmes cléf/débutant pour l'apprentissage par renforcement

Author Profile - Paul Claret

By Paul Claret

10 minutes read - 11/12/24

Dans un précédent article, nous avons parlé des concepts fondamentaux d’un agent, de son environnement, des politiques qu’il utilise et des récompenses qu’il cherche à maximiser. Maintenant, plongeons dans les algorithmes clés qui permettent aux agents d’apprendre à interagir efficacement avec leur environnement.

1. Q-Learning : L’apprentissage des valeurs

Le Q-Learning est un algorithme de base en apprentissage par renforcement. Il se concentre sur l’apprentissage d’une fonction appelée Q-Function, qui estime la valeur de chaque action dans chaque état.

Fonctionnement :

Formule clé :

\[ Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R + \gamma \max_{a'} Q(s', a') - Q(s, a) \right] \] - \(s\) : État actuel. - \(a\) : Action choisie. - \(R\) : Récompense reçue après avoir exécuté \(a\). - \(s'\) : État résultant. - \(\alpha\) : Taux d’apprentissage (learning rate). - \(\gamma\) : Facteur de discount pour les récompenses futures.

Exemple :
Pour un robot dans un labyrinthe, le Q-Learning lui apprend à choisir les chemins les plus courts pour atteindre la sortie en maximisant les récompenses (comme éviter les murs ou trouver une sortie).

lab.gif

2. SARSA : Une variante du Q-Learning

SARSA (State-Action-Reward-State-Action) est un algorithme proche du Q-Learning. La différence principale réside dans la mise à jour des Q-values :

Pasted image 20241211091344.png

Sur le schéma ci dessous, on voit que SARSA prend une seule décision. Alors qu’au dessus, le Q-Learning les prend toutes et choisi ensuite la meilleure.

Pasted image 20241211091125.png

Formule :

\[ Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R + \gamma Q(s', a') - Q(s, a) \right] \] Différence majeure :

Pasted image 20241211091933.png En général le Q-Learning a tendance à converger plus rapidement vers son état final alors que SARSA prend plus de temps à se stabiliser mais obtient un meilleur score final cumulé.

3. Deep Q-Networks (DQN) : Quand les tables ne suffisent plus

Pour des environnements complexes avec un grand nombre d’états et d’actions, stocker une table Q devient impossible. C’est là qu’interviennent les Deep Q-Networks (DQN), qui remplacent la table par un réseau neuronal.

Pasted image 20241211091711.png

Fonctionnement :

  1. L’agent utilise un réseau neuronal pour approximer les Q-values.
  2. Il applique une variante du Q-Learning pour entraîner ce réseau.

Exemple :
C’est avec un DQN que DeepMind a entraîné une IA capable de battre les jeux Atari comme Breakout ou Space Invaders.

Améliorations :

4. Politique Monte Carlo

Les méthodes Monte Carlo reposent sur des échantillons d’expériences complètes pour estimer les valeurs des états ou des actions.

Différence clé :

Pasted image 20241211091034.png

Exemple :

5. Méthodes basées sur la politique : REINFORCE

Contrairement aux méthodes basées sur les valeurs (comme Q-Learning), les algorithmes basés sur la politique cherchent à apprendre directement la meilleure politique.

Fonctionnement :

Formule :

\[ \theta \leftarrow \theta + \alpha \nabla_\theta \log \pi_\theta(s, a) R \] Exemple :
Un drone utilisant REINFORCE apprend à voler à travers des obstacles en ajustant directement ses probabilités d’action.

6. Actor-Critic : Une combinaison puissante

Les algorithmes Actor-Critic combinent les approches basées sur la politique (Actor) et celles basées sur les valeurs (Critic).

Pasted image 20241211090851.png

Exemple :
Utilisé dans des environnements complexes comme les simulations 3D, où l’apprentissage rapide et stable est crucial.

Quand utiliser quel algorithme ?

Situation Algorithme recommandé
Petits environnements simples Q-Learning, SARSA
Grands environnements complexes DQN, Actor-Critic
Problèmes nécessitant une exploration directe Méthodes Monte Carlo
Apprentissage direct de politiques REINFORCE, Actor-Critic

Conclusion

Ces algorithmes clés forment la base de l’apprentissage par renforcement moderne. Ils permettent aux agents d’apprendre à explorer, à s’adapter et à résoudre des problèmes dans des environnements variés.

L’évolution vers des méthodes plus avancées, comme les algorithmes multi-agents ou les approches basées sur des modèles, ouvre des perspectives encore plus ambitieuses pour l’avenir de l’IA interactive.

Vous voulez apprendre l'IA en autonomie ?

Si vous êtes nouveau sur mon site, je vous invite à aller voir ma page sur Roadmap IA qui regroupe tous mes articles dans l'ordre pour vous facilitez l'apprentissage.