Imitation algorithmique
En apprentissage continuel, un agent apprenant est en continuelle interaction avec son environnement.À chaque instant, il reçoit des entrées, doit effectuer un calcul et un apprentissage court (en-ligne), puis renvoie des sorties.Il n'y a pas de but particulier, l'agent doit simplement apprendre au fur et à mesure, incrémentalement, sans notion de "problème" a priori, en réutilisant la connaissance acquise précédemment pour apprendre des problèmes de plus en plus complexes.Nous nous intéressons dans ce cadre à l'apprentissage de séquences complexes.Mais l'agent ne peut pas se permettre d'effectuer un grand nombre d'essais et d'erreurs.Comment dans ce cas apprendre rapidement à partir d'un nombre réduit d'exemples ?Les méthodes existantes pour résoudre de tels problèmes ne sont pas adaptées à l'apprentissage continuel, car il augmente grandement les difficultés.Pour simplifier la tâche, nous adoptons alors un protocole d'imitation, qui permet à l'agent d'apprendre en observant un professeur, tout en lui laissant une grande autonomie et en étant en accord avec l'apprentissage continuel.L'imitation étant habituellement utilisée dans un cadre robotique, nous l'étendons pour pouvoir apprendre des séquences plus complexes : c'est l'Imitation Algorithmique.Un système d'apprentissage adapté, CSAAL, est ensuite proposé et les expérimentations montrent qu'il est effectivement capable d'apprendre des séquences complexes en très peu d'exemples.Une extension du système précédent, H-CSAAL, permet alors de réutiliser hiérarchiquement des fonctions récurrentes, augmentant ainsi à la fois l'autonomie de l'agent et ses capacités de généralisation.