Apprentissage par renforcement

L'apprentissage par renforcement ou apprentissage par renforcement ( apprentissage de l' anglais par renforcement ) consiste en une variété de techniques d' apprentissage automatique dans lesquelles un agent apprend automatiquement une stratégie pour maximiser les récompenses reçues. L'agent n'est pas montré quelle action est la meilleure dans quelle situation, mais reçoit à la place une récompense à certains moments, qui peut également être négative. En utilisant ces récompenses, il se rapproche d'une fonction d'utilité qui décrit la valeur d'un certain état ou action.

Le terme est emprunté à la psychologie et est utilisé depuis les débuts de la cybernétique. Donc déjà utilisé Marvin Minsky le terme dans sa thèse de 1954. Les modèles d'apprentissage par renforcement tentent de reproduire les comportements d'apprentissage dans la nature.

modèle

Les méthodes d'apprentissage par renforcement prennent en compte l'interaction d'un agent d'apprentissage avec son environnement. Ce dernier est formulé comme un problème de décision de Markov . L'environnement a donc une multitude d'états . En fonction de la situation, l'agent peut choisir une action parmi un ensemble d'actions disponibles, grâce à quoi il passe à un état ultérieur et reçoit une récompense . ${\ displaystyle S}$ ${\ displaystyle s_ {t} \ in S}$ ${\ displaystyle a_ {t} \ in A (s_ {t})}$ ${\ displaystyle s_ {t + 1} \ in S}$ ${\ displaystyle r_ {t + 1} \ in \ mathbb {R}}$

L'objectif de l'agent est le bénéfice futur attendu

{\ displaystyle R_ {t} = \ sum _ {k = 0} ^ {T} \ gamma ^ {k} \ cdot r_ {t + k + 1}}

Avec

{\ displaystyle 0 \ leq \ gamma \ leq 1}

pour maximiser. Le profit attendu est donc quelque chose comme la récompense globale attendue. C'est ce qu'on appelle le facteur de remise , qui pondère les récompenses futures. Pour les problèmes épisodiques, i. H. le monde entre dans un état final après un nombre fini d'étapes (comme une partie d'échecs), le facteur d'actualisation convient . Dans ce cas, chaque récompense est évaluée de manière égale. Pour les problèmes continus ( ), il faut en choisir un pour que la série infinie converge. Car seule compte la récompense actuelle ; toutes les récompenses futures sont ignorées. Va vers 1, l'agent devient plus clairvoyant. ${\ Displaystyle \ gamma \, \!}$ ${\ displaystyle \ gamma = 1 \, \!}$ ${\ Displaystyle r_ {t + k + 1} \, \!}$ ${\ displaystyle T = \ infty}$ ${\ displaystyle \ gamma <1 \, \!}$ ${\ displaystyle R_ {t} \, \!}$ ${\ displaystyle \ gamma = 0 \, \!}$ ${\ displaystyle r_ {t + 1} \, \!}$ ${\ Displaystyle \ gamma \, \!}$

A cet effet, l'agent poursuit une stratégie ( politique anglaise ) qu'il améliore continuellement. Habituellement, la stratégie est vue comme une fonction qui attribue une action à chaque état. Cependant, des stratégies non déterministes (ou des stratégies mixtes ) sont également possibles, de sorte qu'une action est sélectionnée avec une certaine probabilité. En général, une stratégie est donc définie comme une distribution de probabilité conditionnelle: ${\ displaystyle \ pi \ colon S \ rightarrow A}$ ${\ Displaystyle \ pi (s, a) = p (a | s) \ quad}$

Processus d'apprentissage

Il existe différents algorithmes pour apprendre la stratégie de l'agent. Les méthodes de Monte Carlo et l'apprentissage des différences temporelles sont très efficaces . Il s'agit d'une série d'algorithmes dans lesquels l'agent a une fonction d'utilité qui évalue un certain état ou une certaine action dans un état.

Dans le cas de petits espaces de statut ou d'action, il peut s'agir d'une table dont les champs sont mis à jour en fonction de la récompense reçue. Dans le cas de grands espaces d'états, cependant, la fonction doit être approchée. Par exemple, la série de Fourier ou un réseau de neurones conviennent pour cela .

Si plus d'un agent doit apprendre, la convergence des processus d'apprentissage ne peut (jusqu'à présent) être garantie même avec des agents coopératifs, sauf dans des cas triviaux. Néanmoins, un comportement utile en pratique peut souvent être appris à l'aide d'heuristiques, car le pire des cas se produit rarement.

Littérature

Richard Sutton, Andrew Barto: Apprentissage par renforcement: une introduction. MIT Press, Cambridge, MA, 1998.
Dimitri P. Bertsekas, John Tsitsiklis: Programmation Neuro-Dynamique. Athena Scientific, Cambridge, MA, 1996.
Csaba Szepesvári, Algorithmes pour l'apprentissage par renforcement, Morgan et Claypool, 2010 ( ualberta.ca PDF).
Marc Patrick Deisenroth, Gerhard Neumann, Jan Peters: Une enquête sur la recherche de politiques pour la robotique. Foundations and Trends in Robotics, 21, pp. 388–403, 2013 ( ausy.tu-darmstadt.de PDF).
Jens Kober, Drew Bagnell, Jan Peters: Apprentissage par renforcement en robotique: une enquête. International Journal of Robotics Research, 32, 11, pp. 1238–1274, 2013 ( ausy.tu-darmstadt.de PDF).
Uwe Lorenz: Apprentissage par renforcement: Comprendre les approches actuelles - avec des exemples en Java et Greenfoot. Springer Vieweg, 2020, ISBN 978-3-662-61651-2
Warren B. Powell: Programmation dynamique approximative. John Wiley et fils, 2011.
Stuart Russell, Peter Norvig: Intelligence artificielle: une approche moderne. Pearson Studium, août 2004, ISBN 3-8273-7089-2 (traduction allemande de la 2e édition) Chapitre 21.

liens web

Tutoriel sur l'apprentissage par renforcement (anglais, PDF; 101 kB)
Article . Dans: Scholarpedia . (Anglais, y compris les références)
Article de blog sur le thème de l'apprentissage par renforcement avec un exemple

Preuve individuelle

^ Richard Sutton: FAQ d'apprentissage par renforcement. (N'est plus disponible en ligne.) 2 avril 2004, archivé de l' original le 28 août 2016 ; Consulté le 21 avril 2016 (anglais).
↑ Michel Tokic: Apprentissage par renforcement avec contrôle adaptatif de l'exploration et de l'exploitation . Ulm 2013, doi : 10.18725 / oparu-2517 (Thèse de doctorat, Université d'Ulm, Institute for Neuroinformatics).
↑ JF Knabe: Apprentissage par renforcement coopératif dans les systèmes multi-agents. B. Sc. Thèse, Université d'Osnabrück, 2005 ( panmental.de PDF)

[1] Richard Sutton: FAQ d'apprentissage par renforcement. (N'est plus disponible en ligne.) 2 avril 2004, archivé de l' original le 28 août 2016 ; Consulté le 21 avril 2016 (anglais).

[2] Michel Tokic: Apprentissage par renforcement avec contrôle adaptatif de l'exploration et de l'exploitation . Ulm 2013, doi : 10.18725 / oparu-2517 (Thèse de doctorat, Université d'Ulm, Institute for Neuroinformatics).

[3] JF Knabe: Apprentissage par renforcement coopératif dans les systèmes multi-agents. B. Sc. Thèse, Université d'Osnabrück, 2005 ( panmental.de PDF)

Languages