Chapitre III: Les Réseaux de Neurones Artificiels et l'Apprentissage
par Renforcement
III.1 Introduction ………………………………………………………………………………... 28
III.2 Définitions …………………………………………………………………………………. 28
III.2.1 Intelligence Artificielle (IA) ………………………………………………………. 28
III.2.2 Agent ……………………………………………………………………………… 28
III.2.3 Apprentissage …………………………………………………………………...… 29
III.3 Réseaux de neurones artificiels (RNA) ……………………………………………………. 30
III.3.1 Structure d'un neurone …………………………………………………………… 31
III.3.2 Fonctions d’activation ………………………………………………………......... 32
III.3.3 Structures d'interconnexion ………………………………………………………. 33
III.3.4 Apprentissage des RNA ………………………………………………….…….… 34
III.3.5
Les RNA pour la commande des processus ………………………………..……. 35
III.3.5.1 Identification par RNA …………………………………………………..
35
III.3.5.2 Commande par RNA …………………………………….………………..
36
III.4 Apprentissage par renforcement AR……………………………………………………..... 37
III.4.1 Définition et principe ……………………………………………………………... 37
III.4.2 Processus de décision markoviens (PDM) ……………………………………….. 38
III.4.3 Propriété de Markov ………………………………………………………….….... 38
III.4.4 Politique …………………………………………………………………………... 38
III.4.5 Fonction valeur ……...…………………………………………………………….. 39
III.4.6 Equation d’optimalité de Bellman ………………………………………..………. 39
III.4.7 Programmation dynamique (PD) …………………………………………………. 41
III.4.8 Méthode de Monte Carlo ………………………………………………………….. 41
III.4.9 Les méthodes de différence temporelle …………………………………………… 42
III.4.9.1 Algorithme TD(0) ……………...……...…………………………..……... 42
III.4.9.2 Algorithme SARSA …………………………..………………………….. 43
III.4.9.3 Algorithme Q-Learning ………………………..………………………… 43
III.4.10 Choix d'action (dilemme Exploration-Exploitation) …………………………….. 45
III.4.11 Traces d’éligibilité ………………………………………………………………. 46
III.4.12 Applications et limitations de l’apprentissage par renforcement ……………...… 47
III.5 Conclusion
…………………………………..………………………………………
48
Chapitre IV: Navigation Autonome par des Contrôleurs Flous
IV.1 Introduction ………………………………………………………………………………... 49
IV.2 Navigation basée sur les comportements …………………………..……………………… 50
IV.3 Navigation basée sur les comportements flous ……………………..……………………... 51
IV.4 Modèle du robot mobile …………………………………………………………………… 52
IV.5 Conception des comportements flous ……………………………………………………... 53
IV.5.1 Comportement de navigation vers un but (recherche d'une cible) ………………... 54
IV.5.2 Comportement d'évitement d'obstacles …………………………………………… 56
IV.5.2.1 Evitement d’obstacles par mesure de distance et de l'angle …..……..…... 56
IV.6 Résultats de simulation …………………………………………………………………….. 57
IV.6.1 Comportement de convergence vers un but ………...…………………………….. 57
IV.6.2 Comportement d'évitement d'obstacles ……………...……………………………. 59
IV.7 Navigation avec évitement d’obstacles (2
application) ………………………………… 60
IV.7.1 Résultats de simulation …….……………………………………………………... 63
IV.8 Conclusion
…………………………………………………………………………..
64