Réunion GDR 22/10/2008 Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Apprentissage pour la commande de robots redondants éléments de l’état de l’art Olivier Sigaud, Vincent Padois, Camille Salaün ISIR, UPMC-Paris 6 [email protected] (+33)1.44.27.88.53 1/23 Rappel des objectifs Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Mise au point de lois de commande pour les robots redondants, poly-articulés, sur- et sous-actionnés (humanoïdes) Fondées sur des mécanismes d’adaptation du comportement humain Etude des travaux d’ingénieurs visant à rendre compte de ces principes 2/23 Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Trois composantes du contrôle moteur humain 3/23 Vue de Todorov Harris&Wolpert 98 ; Todorov&Jordan 00 Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Le contrôle moteur résout un problème d’optimisation: critère ? Minimum jerk, minimum torque change : n’explique rien… Minimize error in f(motor noise) => minimiser entrée motrice Minimal intervention principle => do not deal with useless dimensions Outils robotiques • iLQG + LWPR • OSC • NAC noise (proportional to input) Controller control estimated state State estimator Bio-mechanical system efferent copy state sensor feedback noise 4/23 Sensors Vue de Doya Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Doya (2000) Complementary roles of basal ganglia and cerebellum in learning and motor control, Current Opinion in Neurobiology, 10:732-739 Apprentissage d’actions optimales et de modèles directs 5/23 Vue de Shadmehr Plan Espace opérationnel : référentiel visuel centré sur le point de fixation Contrôle moteur humain • Todorov • Doya • Shadmehr Recherche d’une trajectoire opimale dans l’espace opérationel => vecteur Outils robotiques • iLQG + LWPR • OSC • NAC Recherche des entrées musculaires qui permettent de réaliser cette trajectoire Shadmehr, R and Wise, S. (2005) The Computational Neurobiology of Reaching and Pointing, MIT Press La jacobienne visuo-articulaire est apprise La dynamique du système musculo-squelettique aussi 6/23 Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC La voie iLQG 7/23 SOFC, TOFC, iLQG Todorov 02, 04 ; Guigon 07,08 Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC SOFC: commande optimale + Estimation d’état Problème: très coûteux pour des systèmes de grande taille LQR : coût quadratique, équation d’état linéaire, résolution par l’équation de Riccati => moins cher que le cas général iLQR: version incrémentale, très efficace iLQG: iLQR au cas avec bruit gaussien Plus proche du cas général, mais moins cher On reste cantonné au coût quadratique Li, W., Todorov, E.: Iterative linear quadratic regulator applied to nonlinear biological movement systems. In: Proceedings of the 1st InternationalConference on Informatics in Control, Automation and Robotics. (2004) 222-229 Todorov, E. Li, W., :A generalized iterative LQG method for locally-optimal feedback control of constrained nonlinear stochastic systems. In: Proceedings of the American Control Conference. (2005) 300-306 8/23 Apprentissage de modèles : LWPR Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Moindres carrés : approximation linéaire d’une fonction Moindres carrés récursifs (RLS): version incrémentale Moindres carrés partiels (PLS): avec projections LWPR: Approximation de fonction incrémentale en O(n) avec approximation linéaire locale (PLS) sur des ellipsoïdes, n grand Modèle : Xt+1 = f(Xt,Ut), apprentissage (auto-)supervisé Vijayakumar, S., Schaal, S. (2000) Locally weighted projection regression: an o(n) algorithm for incremental real time learning in high dimensional spaces. In: proceedings of the 17th international conference on machine learning (icml 2000). 288-293 9/23 Adaptation motrice Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Modèle « réaliste » (6DDL) du bras avec muscles Mitrovic, D., Klanke, S., Vijayakumar, S. (2008) Adaptive optimal control for redundantly actuated arms. In: Proceedings of the Tenth International Conference on Simulation of Adaptive Behavior. 10/23 Limites du cadre Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Ne dépasse pas 10 degrés de liberté (manque la partie OSC) Limité aux coûts quadratiques (manque la fonction de récompense externe) 11/23 Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC La voie OSC 12/23 Jacobienne Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Vitesse de l’effecteur dans le référentiel de la tâche Jacobienne Vitesses articulaires J relie la vitesse des articulations à la vitesse de l’effecteur L’espace opérationnel est (généralement) beaucoup plus petit 13/23 Commande en feedback avec OSC (fait main) Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC 14/23 Commande en feedback avec OSC (apprise) Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC On obtient J# en dérivant puis inversant le modèle géométrique 15/23 Commande opérationnelle hiérarchique Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Chaque tâche utilise un nombre limité de DDL. En fixant des priorités, on peut combiner des tâches sans interférences… Outils robotiques • iLQG + LWPR • OSC • NAC …tant qu’il reste des DDL Khatib, O., Sentis, L., Park, J., Warren, J.: Whole body dynamic behavior and control of humanoid robots. International Journal of Humanoid Robotics (2004) 16/23 Limites de LWPR et au-delà Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Processus gaussiens N. De Freitas Nécessité de l’imitation Apprenticeship learning (A. Ng and P. Abbeel) Learning from Demonstration (M. Veloso et al., R. Dillmann, A. Billard) … 17/23 Autres approches OSC + Learning Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Jan Peters (AR immédiat) Peters, J., Schaal, S. (2007) Learning operational space control. In ICML. Peters, J., Schaal, S. (2007) Reinforcement learning for operational space control. In: ICRA. 2111-2116 [117] Peters, J., Schaal, S. (2007) using reward-weighted regression for reinforcement learning of task space control. In: proceedings IEEE –ADPRL M. Toussaint (Optimization) Toussaint, M., Charlin, M., Poupart, P. (2008) Hierarchical POMDP controller optimization by likelihood maximization. In: Uncertainty in Articial Intelligence. Toussaint, M., Gienger, M., Goerick, C. (2008) Optimization of sequential attractor-based movement for compact behaviour generation. In: humanoids2008, IEEE-RAS International Conference on Humanoid Robots". O. Herbort (Version neuronale) Butz, M.V., Herbort, O., Hoffman, J. (2007) Exploiting redundancy for flexible behavior: Unsupervised learning in a modular sensorimotor control architecture. Psychological Review 114(4) 1015-1046 18/23 Limites du cadre Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Réglage manuel de la trajectoire opérationnelle (y mettre de la commande optimale ou de l’apprentissage par renforcement) Pas de prise en compte d’une fonction de coût (relation entre J# et fonction de coût?) Question centrale: comment trouver le J# qui vérifie le principe d’intervention minimale ? 19/23 Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC La voie INAC 20/23 Architecture Acteur-Critique (pour optimiser la trajectoire opérationnelle) Plan iLQG + LWPR S2 • OSC … Outils robotiques S1 • NAC TD V Critic VTA SNc Sn S1 S2 … • Critic Actor P1 Pn Actor striatum Shadmehr dorsolateral • striatum Doya ventral • frontal cortex Todorov … • Environment frontal cortex Environment Contrôle moteur humain Sn From Takahashi, Schoenbaum and Niv, Frontiers in Neurosciences, pp. 86-97, july 2008 21/23 NAC, eNAC, INAC Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Depuis 1998, progrès rapide sur les méthodes de gradient sur les politiques, vues comme des architectures acteur-critique. Fonctions compatibles Fonctions de base optimales NAC, eNAC Basé sur LSTD-Q(lambda) Suppose de collecter des trajectoires Peters, J., Schaal, S. (2008) Natural actor-critic. Neurocomputing 71(7-9) 11801190 Nouvelle version plus incrémentale Bhatnagar, S., Sutton R., Gavamzadeh M. and Lee M. (2008) : Incremental Natural Actor-Critic, NIPS 22/23 Je n’ai pas réussi à placer Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC Lorenzo Natale Natale, L., Nori, F., Sandini, G., Metta, G. (2007) Learning precise 3D reaching in a humanoid robot. In: ICDL Charles Kemp. Kemp, C.C., Edsinger, A. (2006) Robot manipulation of human tools: Autonomous detection and control of task relevant features. In: ICDL. Edsinger, A., Kemp, C.C. (2006) What can i control? a framework for robot self-discovery. In: Epigenetic Robotics. MOSAIC, MMRL Haruno, M., Wolpert, D.M., Kawato, M. (1998) Multiple paired forwardinverse models for human motor learning and control. In: NIPS. 31-37 Doya, K., Samejima, K., Katagiri, K., Kawato, M. (2002) Multiple modelbased reinforcement learning. Neural Computation 14(6) 1347-1369 Donchin + Shadmehr Howard (+Vijayakumar) 23/23 Questions ? Plan Contrôle moteur humain • Todorov • Doya • Shadmehr Outils robotiques • iLQG + LWPR • OSC • NAC 24/23