Qu'est-ce que l'apprentissage par renforcement ?

L'apprentissage par renforcement est un type de apprentissage automatique Il est basé sur des récompenses et des punitions. Cet article explique leur définition, leur fonctionnement et leurs applications de base.

Qu’est-ce que l’apprentissage par renforcement ? -%catégories

Définition de l'apprentissage par renforcement

les programmes sont utilisés intelligence artificielle (IA) Apprentissage automatique en continu pour améliorer la vitesse et l'efficacité. Dans l'apprentissage par renforcement, l'IA est récompensée pour les actions souhaitées et punie pour les actions non désirées.

Cet apprentissage ne peut se faire que dans un environnement contrôlé. Le programmeur attribue des valeurs positives et négatives (ou "points") à certains comportements, et l'IA peut librement explorer l'environnement pour obtenir des récompenses et éviter des pénalités.

Idéalement, l'IA retarderait les gains à court terme au profit des gains à long terme, donc si elle choisissait entre gagner 10 point en XNUMX minute ou gagner XNUMX points en XNUMX minutes, elle retarderait cette gratification et opterait pour la valeur la plus élevée. . En même temps, il apprendra à éviter les mesures punitives qui lui font perdre des points.

Exemples d'apprentissage par renforcement

Les applications dans le monde réel de l'IA basée sur l'apprentissage par renforcement sont quelque peu limitées, mais la méthode a montré des résultats prometteurs dans des expériences en laboratoire.

Par exemple, cet apprentissage a entraîné l'IA à jouer à des jeux vidéo. L'IA apprend à atteindre les objectifs du jeu par essais et erreurs. Par exemple, dans un jeu comme Super Mario Bros. L'IA déterminera la meilleure façon d'atteindre la fin de chaque niveau tout en évitant les ennemis et les obstacles. Des dizaines de programmes d'intelligence artificielle ont réussi à déjouer des jeux spécifiques, et MuZero a perfectionné des jeux vidéo pour lesquels il n'était pas conçu à l'origine.

Lisez aussi:  Correction du format de fichier WhatsApp non pris en charge sur Android

Cet apprentissage a été utilisé pour former un logiciel de gestion des ressources d'entreprise (ERM) afin d'allouer les ressources de l'entreprise pour obtenir les meilleurs résultats à long terme. Des algorithmes d'apprentissage par renforcement ont été utilisés pour entraîner des robots à marcher et à effectuer d'autres tâches physiques. Cet apprentissage a également montré des résultats prometteurs dans les statistiques, la simulation, l'ingénierie, la fabrication et la recherche médicale.

ses limites

La principale limitation des algorithmes d'apprentissage par renforcement est leur dépendance à un environnement fermé. Par exemple, un robot peut l'utiliser pour naviguer dans une pièce où tout est immobile. Cependant, cet apprentissage ne vous aidera pas à naviguer dans un couloir rempli de personnes en mouvement car l'environnement change constamment. Le robot se heurtera à des objets sans but sans développer une image claire de son environnement.

Étant donné que cet apprentissage est basé sur des essais et des erreurs, il peut consommer plus de temps et de ressources. Du côté positif, l'apprentissage par renforcement ne nécessite pas beaucoup de supervision humaine.

En raison de ses limites, il est souvent associé à d'autres types d'apprentissage automatique. Les véhicules autonomes, par exemple, utilisent ses algorithmes ainsi que d'autres techniques d'apprentissage automatique, telles que l'apprentissage supervisé, pour naviguer sur les routes sans s'écraser.

types d'algorithmes

Les algorithmes d'apprentissage par renforcement peuvent être séparés en deux catégories principales : basés sur un modèle ou sans modèle. Un algorithme basé sur un modèle développe un modèle de son environnement pour prédire les récompenses d'actions possibles. Dans l'apprentissage par renforcement sans modèle, l'agent IA apprend directement par essais et erreurs.

Lisez aussi:  Top 6 des correctifs pour que Telegram reste déconnecté sur mobile et ordinateur de bureau

Les algorithmes basés sur des modèles sont idéaux pour les simulations et les environnements statiques, comme une chaîne de montage, où l'objectif est de répéter la même action à plusieurs reprises. Des exemples de ses algorithmes basés sur des modèles incluent l'itération de valeur et l'itération de politique, dans lesquelles un agent d'IA suit une formule stricte (ou « politique ») pour déterminer le meilleur plan d'action.

Les algorithmes sans modèle sont utiles pour des situations réelles plus dynamiques. Un exemple d'apprentissage sans modèle est l'algorithme Deep Q-Network (DQN), qui utilise un réseau de neurones pour prédire les résultats en fonction des actions et des résultats précédents. Les applications DQN vont des prévisions boursières à la régulation de la qualité de l'air dans les grands bâtiments.

Il existe une variante de cet apprentissage appelée apprentissage par renforcement inverse, c'est-à-dire lorsqu'un agent d'IA apprend en observant les actions des humains.

Questions fréquemment posées:

Q1 : Qu'est-ce que le Q-Learning ?
Répondre: Q-Learning est un autre terme pour les algorithmes sans modèle. Ce type particulier d'apprentissage par renforcement n'a pas besoin d'un modèle de l'environnement pour faire des prédictions à son sujet ; Il vise à « apprendre » les actions entreprises par les différents pays.

Q2 : Quelle est la politique en matière d'apprentissage par renforcement ?
Répondre: La politique est un plan que le système d'apprentissage utilise pour résoudre des problèmes. Il détermine ce qu'il faut faire et quand en fonction des informations dont il dispose et de la solution qu'il essaie d'obtenir.

Vous pourriez l'aimer aussi