Exposé d`Olivier Sigaud

publicité
Réunion GDR 22/10/2008
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
Apprentissage pour la
commande de robots redondants
éléments de l’état de l’art
Olivier Sigaud, Vincent Padois, Camille Salaün
ISIR, UPMC-Paris 6
[email protected]
(+33)1.44.27.88.53
1/23
Rappel des objectifs
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
 Mise au point de lois de commande pour les robots
redondants, poly-articulés, sur- et sous-actionnés
(humanoïdes)
 Fondées sur des mécanismes d’adaptation du
comportement humain
 Etude des travaux d’ingénieurs visant à rendre compte de
ces principes
2/23
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
Trois composantes
du contrôle moteur
humain
3/23
Vue de Todorov
Harris&Wolpert 98 ; Todorov&Jordan 00
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Le contrôle moteur résout un problème d’optimisation: critère ?
Minimum jerk, minimum torque change : n’explique rien…
Minimize error in f(motor noise) => minimiser entrée motrice
Minimal intervention principle => do not deal with useless dimensions
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
noise (proportional to input)
Controller
control
estimated
state
State estimator
Bio-mechanical system
efferent
copy
state
sensor feedback
noise
4/23
Sensors
Vue de Doya
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
Doya (2000) Complementary roles of basal ganglia and cerebellum in learning and motor
control, Current Opinion in Neurobiology, 10:732-739
Apprentissage d’actions optimales et de modèles directs
5/23
Vue de Shadmehr
Plan
Espace opérationnel : référentiel visuel centré sur le point de fixation
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Recherche d’une
trajectoire opimale
dans l’espace
opérationel => vecteur
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
Recherche des entrées
musculaires qui
permettent de réaliser
cette trajectoire
Shadmehr, R and Wise, S. (2005) The Computational
Neurobiology of Reaching and Pointing, MIT Press
La jacobienne visuo-articulaire est apprise
La dynamique du système musculo-squelettique aussi
6/23
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
La voie iLQG
7/23
SOFC, TOFC, iLQG
Todorov 02, 04 ; Guigon 07,08
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
SOFC: commande optimale + Estimation d’état
Problème: très coûteux pour des systèmes de grande taille
LQR : coût quadratique, équation d’état linéaire, résolution
par l’équation de Riccati => moins cher que le cas général
iLQR: version incrémentale, très efficace
iLQG: iLQR au cas avec bruit gaussien
Plus proche du cas général, mais moins cher
On reste cantonné au coût quadratique
Li, W., Todorov, E.: Iterative linear quadratic regulator applied to nonlinear biological movement
systems. In: Proceedings of the 1st InternationalConference on Informatics in Control, Automation
and Robotics. (2004) 222-229
Todorov, E. Li, W., :A generalized iterative LQG method for locally-optimal feedback control of
constrained nonlinear stochastic systems. In: Proceedings of the American Control Conference.
(2005) 300-306
8/23
Apprentissage de modèles : LWPR
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
 Moindres carrés : approximation linéaire d’une fonction
 Moindres carrés récursifs (RLS): version incrémentale
 Moindres carrés partiels (PLS): avec projections
 LWPR:
 Approximation de fonction incrémentale en O(n) avec
approximation linéaire locale (PLS) sur des ellipsoïdes, n grand
 Modèle : Xt+1 = f(Xt,Ut), apprentissage (auto-)supervisé
Vijayakumar, S., Schaal, S. (2000) Locally weighted projection regression: an o(n) algorithm for incremental
real time learning in high dimensional spaces. In: proceedings of the 17th international conference on
machine learning (icml 2000). 288-293
9/23
Adaptation motrice
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
Modèle « réaliste » (6DDL) du bras avec muscles
Mitrovic, D., Klanke, S., Vijayakumar, S. (2008) Adaptive optimal control for redundantly actuated arms.
In: Proceedings of the Tenth International Conference on Simulation of Adaptive Behavior.
10/23
Limites du cadre
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
 Ne dépasse pas 10 degrés de liberté
 (manque la partie OSC)
 Limité aux coûts quadratiques
 (manque la fonction de récompense externe)
11/23
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
La voie OSC
12/23
Jacobienne
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
Vitesse de
l’effecteur dans
le référentiel de
la tâche
Jacobienne
Vitesses articulaires
J relie la vitesse des articulations à la vitesse de l’effecteur
L’espace opérationnel est (généralement) beaucoup plus petit
13/23
Commande en feedback avec
OSC (fait main)
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
14/23
Commande en feedback avec
OSC (apprise)
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
On obtient J# en dérivant puis inversant le modèle géométrique
15/23
Commande opérationnelle
hiérarchique
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr

Chaque tâche utilise un nombre limité de DDL.

En fixant des priorités, on peut combiner des tâches sans
interférences…
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC

…tant qu’il reste des DDL
Khatib, O., Sentis, L., Park, J., Warren, J.: Whole body dynamic behavior and control of
humanoid robots. International Journal of Humanoid Robotics (2004)
16/23
Limites de LWPR et au-delà
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
 Processus gaussiens
 N. De Freitas
 Nécessité de l’imitation
 Apprenticeship learning (A. Ng and P. Abbeel)
 Learning from Demonstration (M. Veloso et al., R.
Dillmann, A. Billard)
…
17/23
Autres approches
OSC + Learning
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
 Jan Peters (AR immédiat)
 Peters, J., Schaal, S. (2007) Learning operational space control. In ICML.
 Peters, J., Schaal, S. (2007) Reinforcement learning for operational space control.
In: ICRA. 2111-2116
 [117] Peters, J., Schaal, S. (2007) using reward-weighted regression for
reinforcement learning of task space control. In: proceedings IEEE –ADPRL
 M. Toussaint (Optimization)
 Toussaint, M., Charlin, M., Poupart, P. (2008) Hierarchical POMDP controller
optimization by likelihood maximization. In: Uncertainty in Articial Intelligence.
 Toussaint, M., Gienger, M., Goerick, C. (2008) Optimization of sequential
attractor-based movement for compact behaviour generation. In: humanoids2008,
IEEE-RAS International Conference on Humanoid Robots".
 O. Herbort (Version neuronale)
 Butz, M.V., Herbort, O., Hoffman, J. (2007) Exploiting redundancy for flexible
behavior: Unsupervised learning in a modular sensorimotor control architecture.
Psychological Review 114(4) 1015-1046
18/23
Limites du cadre
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
 Réglage manuel de la trajectoire opérationnelle (y mettre de
la commande optimale ou de l’apprentissage par
renforcement)
 Pas de prise en compte d’une fonction de coût (relation
entre J# et fonction de coût?)
 Question centrale: comment trouver le J# qui vérifie le
principe d’intervention minimale ?
19/23
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
La voie INAC
20/23
Architecture Acteur-Critique
(pour optimiser la trajectoire opérationnelle)
Plan
iLQG + LWPR
S2
•
OSC
…
Outils robotiques
S1
•
NAC
TD
V
Critic
VTA
SNc
Sn
S1
S2
…
•
Critic
Actor
P1
Pn
Actor
striatum
Shadmehr
dorsolateral
•
striatum
Doya
ventral
•
frontal cortex
Todorov
…
•
Environment
frontal cortex
Environment
Contrôle moteur humain
Sn
From Takahashi, Schoenbaum and Niv, Frontiers in Neurosciences, pp. 86-97, july 2008
21/23
NAC, eNAC, INAC
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
 Depuis 1998, progrès rapide sur les méthodes de
gradient sur les politiques, vues comme des architectures
acteur-critique.
 Fonctions compatibles
 Fonctions de base optimales
 NAC, eNAC
 Basé sur LSTD-Q(lambda)
 Suppose de collecter des trajectoires
 Peters, J., Schaal, S. (2008) Natural actor-critic. Neurocomputing 71(7-9) 11801190
 Nouvelle version plus incrémentale
 Bhatnagar, S., Sutton R., Gavamzadeh M. and Lee M. (2008) : Incremental Natural
Actor-Critic, NIPS
22/23
Je n’ai pas réussi à placer
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
 Lorenzo Natale
 Natale, L., Nori, F., Sandini, G., Metta, G. (2007) Learning precise 3D
reaching in a humanoid robot. In: ICDL
 Charles Kemp.
 Kemp, C.C., Edsinger, A. (2006) Robot manipulation of human tools:
Autonomous detection and control of task relevant features. In: ICDL.
 Edsinger, A., Kemp, C.C. (2006) What can i control? a framework for robot
self-discovery. In: Epigenetic Robotics.
 MOSAIC, MMRL
 Haruno, M., Wolpert, D.M., Kawato, M. (1998) Multiple paired forwardinverse models for human motor learning and control. In: NIPS. 31-37
 Doya, K., Samejima, K., Katagiri, K., Kawato, M. (2002) Multiple modelbased reinforcement learning. Neural Computation 14(6) 1347-1369
 Donchin + Shadmehr
 Howard (+Vijayakumar)
23/23
Questions ?
Plan
Contrôle moteur humain
•
Todorov
•
Doya
•
Shadmehr
Outils robotiques
•
iLQG + LWPR
•
OSC
•
NAC
24/23
Téléchargement