Agents, Environement, Politique et Récompense RL
Explicaitons simples puis approfondies avec les maths
By Paul Claret
10 minutes read - 11/12/24
Quand on parle d’intelligence artificielle (IA), en particulier de domaines comme l’apprentissage par renforcement, ces termes clés reviennent souvent : agents, environnements, politiques et récompenses. Ce sont les briques fondamentales qui permettent à une IA d’apprendre à interagir intelligemment avec son environnement pour atteindre des objectifs.
Cet article va détailler chacun de ces concepts avec des exemples simples et intuitifs. Le but de cet article est juste de définir les termes pour poser la fondation de ce que l’on va voir dans le prochain article sur l’apprentissage par renforcement.
On va voir comment cela s’applique à jeu du petit dino de chrome:
Qu’est-ce qu’un agent ?
Un agent est une entité qui prend des décisions et agit dans un environnement. Cela peut être :
- Un robot dans une usine.
- Une voiture autonome sur une route.
- Un logiciel jouant à un jeu vidéo.
L’agent a un objectif : maximiser les récompenses qu’il reçoit de l’environnement.
Exemple dino :
L’agent serait ici le programme qui agit sur le dino. Le dino est le
personne qui peut faire l’action de sauter ou non. Les deux sont liés
d’une certaine façon donc que vous disiez dino ou programme vous avez
raison.
L’environnement
L’environnement est tout ce qui entoure l’agent et avec lequel il interagit. C’est dans cet environnement que l’agent prend ses décisions et observe les résultats.
Caractéristiques importantes :
- L’environnement peut être statique (il ne change pas sans intervention de l’agent) ou dynamique (il évolue même sans action de l’agent).
- Il peut être partiellement observable (l’agent n’a pas accès à toutes les informations) ou totalement observable (l’agent voit tout).
Exemple :
Dans l’image du jeu dino chrome, l’environment est consitué de cactus et
de dinosaurs volants. Il est dynamique puisque les élements de
l’environement bougent. (Le cactus est statique puisqu’il est fixe et
notre dino avance vers lui mais les dino volants eux sont
dynamiques).
Les actions et les états
Un état représente une situation précise dans
laquelle se trouve l’agent à un moment donné.
Une action est une décision prise par l’agent pour
modifier son état ou influencer l’environnement.
- États possibles : Le robot aspirateur est dans un coin, au centre, ou près d’un mur.
- Actions possibles : Avancer, tourner, s’arrêter, etc.
À chaque étape, l’agent choisit une action en fonction de son état actuel et des informations disponibles.
Les récompenses
Les récompenses sont au cœur de l’apprentissage. Elles indiquent à l’agent si ses actions sont bonnes ou mauvaises.
- Une récompense positive encourage l’agent à reproduire une action.
- Une récompense négative (ou un coût) l’incite à éviter cette action.
Exemple :
- Si le robot aspirateur nettoie une zone sale : +10 points (récompense positive).
- Si le robot heurte un obstacle : -5 points (pénalité).
L’objectif ultime de l’agent est de maximiser la somme des récompenses qu’il reçoit sur le long terme.
Example: Si notre dino survit à un cactus en ayant sauté par dessus, il reçoit une récompense. S’il ne saute pas et se le prend pleine face, il a une pénalité. A la fin du la génération, on garde le dino qui a le meilleur score/récompense.
Les politiques
Une politique est une stratégie qui dicte quelle action l’agent doit prendre en fonction de son état actuel.
- Une politique peut être fixe (toujours tourner à gauche) ou apprise (optimisée pour maximiser les récompenses).
- On représente souvent une politique par une fonction mathématique ou un tableau associant chaque état à une action.
Exemple :
- État : “Obstacle en vue à X mètres”.
- Politique : “Sauter immédiatement”.
L’apprentissage par renforcement vise principalement à trouver la meilleure politique possible pour maximiser les récompenses.
Le cycle de perception-action
Le fonctionnement d’un agent repose sur un cycle appelé perception-action :
- Perception : L’agent observe son environnement et identifie son état.
- Action : En fonction de sa politique, il décide quelle action entreprendre.
- Récompense : Il reçoit un retour sur son action (récompense ou pénalité).
- Mise à jour : Il ajuste ses décisions futures en fonction de cette expérience.
Ce cycle se répète jusqu’à ce que l’agent atteigne son objectif ou qu’un certain temps soit écoulé.
Example du dino: Le dino avance, il voit un obstance (perception), il saute par dessus (action), il a survécu (récompense), il retient que sauter par dessus un obstacle lui donne une récompense (mise à jour).
Applications concrètes
J’ai pris l’example du jeu dino de chrome puisque vous avez surement déjà entendu parlé il y a quelques années de ces personnes qui ont fait du R-Learning dessus. Mais en réalité, les applications du RL sont beaucoup plus vastes que cela:
Robots autonomes :
Les robots industriels ou aspirateurs utilisent ces principes pour interagir efficacement avec leur environnement.Conduite autonome :
Les voitures autonomes de Tesla ou Waymo doivent naviguer dans des environnements dynamiques, prendre des décisions en temps réel et maximiser des récompenses comme la sécurité ou l’efficacité énergétique.Optimisation de systèmes :
Dans la finance, les agents IA peuvent maximiser les profits en s’adaptant à des marchés changeants.
Les défis à relever
Il y a quelques défis que le RL doit relever: notament face à la quantité de données et le principe de l’algorithme en lui même.
Complexité de l’environnement: Dans des environnements vastes et dynamiques, il est difficile pour un agent d’avoir une vue complète et précise.
Long terme vs court terme: Un agent doit parfois accepter une récompense faible à court terme pour maximiser ses gains sur le long terme.
Exploration vs exploitation:
- Exploration : L’agent essaye de nouvelles actions pour découvrir des stratégies meilleures.
- Exploitation : L’agent applique ce qu’il connaît pour maximiser ses récompenses.
Trouver le bon équilibre est souvent délicat.
Conclusion
Les concepts d’agents, d’environnements, de politiques et de récompenses forment le socle des systèmes d’intelligence artificielle interactifs. Ils permettent à une machine d’apprendre à résoudre des problèmes de manière autonome et efficace.
Dans de futurs articles, nous explorerons des algorithmes comme le Q-Learning ou les méthodes basées sur des réseaux neuronaux profonds, qui aident les agents à découvrir des politiques optimales dans des environnements complexes.
Vous voulez apprendre l'IA en autonomie ?
Si vous êtes nouveau sur mon site, je vous invite à aller voir ma page sur Roadmap IA qui regroupe tous mes articles dans l'ordre pour vous facilitez l'apprentissage.