Intelligence Artificielle MESR - Plan de Formation National Jamal Atif Professeur des Universités PSL, Université Paris-Dauphine, LAMSADE, CNRS 30 mai 2017 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 1 / 44 Définir l’intelligence artificielle Une entreprise périlleuse! Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 2 / 44 Acte de naissance Conférence de Dartmouth en 1956...4 ans après le décès tragique de A. Turing Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 3 / 44 Une définition · · · discutable ! Marvin Minsky Science qui consiste à faire faire aux machines ce que l’homme ferait moyennant une certaine intelligence. Ecueils I Récursivité de la définition : dépend da définition de l’intelligence humaine I Portée de “faire faire" ? Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 4 / 44 L’héritage de Turing Turing (1950) “Computing machinery and intelligence”: I “Can machines think?” −→ “Can machines behave intelligently?” I Test opérationnel : le jeu de l’imitation HUMAN HUMAN INTERROGATOR ? AI SYSTEM I Turing a prédit qu’en 2000, une machine aurait une chance de 30% de tromper un humain pendant 5 minutes. I A anticipé tous les arguments contre l’IA dans les 50 ans suivants. I A suggéré les composantes principales de l’IA : connaissances, raisonnement, TAL, apprentissage Problèmes : le test n’est ni reproductible, ni constructif, ni apte à une analyse mathématique Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 5 / 44 Autres définitions· · · tout aussi discutables I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût raisonnable, relève de l’I.A.” I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux programmes de raisonner logiquement” I “L’IA est le domaine de l’informatique qui étudie comment faire faire à l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le meilleur” I “Le but de l’Intelligence Artificielle est de construire un objet pouvant réussir avec fiabilité le Test de Turing” I “L’IA est ce qui est publié dans les conférences et journaux de l’IA” Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44 Autres définitions· · · tout aussi discutables I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût raisonnable, relève de l’I.A.” I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux programmes de raisonner logiquement” I “L’IA est le domaine de l’informatique qui étudie comment faire faire à l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le meilleur” I “Le but de l’Intelligence Artificielle est de construire un objet pouvant réussir avec fiabilité le Test de Turing” I “L’IA est ce qui est publié dans les conférences et journaux de l’IA” Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44 Autres définitions· · · tout aussi discutables I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût raisonnable, relève de l’I.A.” I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux programmes de raisonner logiquement” I “L’IA est le domaine de l’informatique qui étudie comment faire faire à l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le meilleur” I “Le but de l’Intelligence Artificielle est de construire un objet pouvant réussir avec fiabilité le Test de Turing” I “L’IA est ce qui est publié dans les conférences et journaux de l’IA” Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44 Autres définitions· · · tout aussi discutables I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût raisonnable, relève de l’I.A.” I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux programmes de raisonner logiquement” I “L’IA est le domaine de l’informatique qui étudie comment faire faire à l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le meilleur” I “Le but de l’Intelligence Artificielle est de construire un objet pouvant réussir avec fiabilité le Test de Turing” I “L’IA est ce qui est publié dans les conférences et journaux de l’IA” Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44 Autres définitions· · · tout aussi discutables I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût raisonnable, relève de l’I.A.” I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux programmes de raisonner logiquement” I “L’IA est le domaine de l’informatique qui étudie comment faire faire à l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le meilleur” I “Le but de l’Intelligence Artificielle est de construire un objet pouvant réussir avec fiabilité le Test de Turing” I “L’IA est ce qui est publié dans les conférences et journaux de l’IA” Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44 Un objet protéiforme Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 7 / 44 Une histoire mouvemontée 1943 1950 1952–69 1950s 1956 1965 1966–74 1969 1972 1969–79 1980–88 1988–93 1985–95 1988– 1995– 2006– McCulloch & Pitts: Boolean circuit model of brain Turing’s “Computing Machinery and Intelligence” Look, Ma, no hands! Early AI programs, including Samuel’s checkers program, Newell & Simon’s Logic Theorist, Gelernter’s Geometry Engine Dartmouth meeting: “Artificial Intelligence” adopted Robinson’s complete algorithm for logical reasoning AI discovers computational complexity Minsky and Papert’s “Group Invariance Theorem” Neural network research almost disappears Prolog by Alain Colmerauer and Philippe Roussel Early development of knowledge-based systems Expert systems industry booms Expert systems industry busts: “AI Winter” Neural networks return to popularity (Geff Hinter is there!) Resurgence of probability; general increase in technical depth (machine learning) “Nouvelle AI”: ALife, GAs, soft computing Agents, agents, everywhere . . . Human-level AI and neural networks (deep learning) back on the agenda (Geff Hinton is there!) Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 8 / 44 Que sait on faire aujourd’hui ? Jouer au Go - AlphaGo, le désormais retraité Figure: Mars 2016. AlphaGo : 4 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle Lee Sedol (9 d) : 1 30 mai 2017 9 / 44 Que sait on faire aujourd’hui ? Jouer au Go - AlphaGo, le désormais retraité Figure: 25 mai 2017. AlphaGo : 3 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle Kee Jie (9 d) : 0 30 mai 2017 9 / 44 Que sait on faire aujourd’hui ? Jouer au Poker ? Figure: Libratus: heads-up, no-limit Texas Hold’em. Counterfactual Regret Minimization (CFR) Intelligence Artificielle 30 mai 2017 Jamal Atif (Université Paris-Dauphine) 9 / 44 Que sait on faire aujourd’hui ? Conduire de façon autonome ? Figure: Waymo Google Car Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44 Que sait on faire aujourd’hui ? Converser ? Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44 Que sait on faire aujourd’hui ? Traduire en temps réel ? Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44 Que sait on faire aujourd’hui ? Dépasser les capacités humaines en reconnaissance de formes ? Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44 Que sait on faire aujourd’hui ? I Composer de la musique ? I Jouer à la bourse comme des traders professionnels ? I Détecter des tumeurs ? I Traduire l’activité cérébrale en signal moteur ? I ... Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 10 / 44 Raisons d’un engouement ! I Avancées dans l’ensemble des champs disciplinaires : Rep. des connaissances (knowledge graph), raisonnement (complexité), SAT, théorie de l’apprentissage, etc. I Disponibilité de grandes masses de données I Disponibilité des moyens de calcul I Percée de l’apprentissage automatique et des modèles neuronaux profond I Représentation des connaissances et raisonnement sur des données à grande échelle Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 11 / 44 Ouvrons la boite ! Apprentissage automatique Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 12 / 44 Apprentissage automatique Définition imprécise Doter les machines de capacités I d’extraction automatique de “connaissances” à partir de masses de données I et d’auto-amélioration à partir d’expérience Définition moins imprécise (Tom Mitchell) A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P , if its performance at tasks in T , as measured by P , improves with experience E. Jeu de dame : T jouer au dame, P % de parties gagnées, E mouvements connus ou pratique du jeu Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 13 / 44 Apprentissage automatique Définition imprécise Doter les machines de capacités I d’extraction automatique de “connaissances” à partir de masses de données I et d’auto-amélioration à partir d’expérience Définition moins imprécise (Tom Mitchell) A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P , if its performance at tasks in T , as measured by P , improves with experience E. Jeu de dame : T jouer au dame, P % de parties gagnées, E mouvements connus ou pratique du jeu Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 13 / 44 Grandes figures de l’apprentissage automatique I Apprentissage supervisé I Apprentissage non-supervisé I Apprentissage par renforcement I Apprentissage actif I Transfert d’apprentissage, par analogie, de préférences, etc. Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 14 / 44 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 15 / 44 Apprentissage supervisé Principe: étant donné un échantillon de données étiquetées S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui lie les données aux étiquettes. h∈H X 3 x −→ y ∈ Y p(.,.) I I I I Y ≡ R : problème de régression Y ≡ ensemble discret(e.g. {0, 1}): problème de classification H peut être un espace fonctionnel ou de densités de probabilités Choix de la fonction de perte et du risque à minimiser (erreur en généralisation) : Z R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy X ×Y I Minimisation du risque empirique n ĥ = arg min h∈H Jamal Atif (Université Paris-Dauphine) 1X `(h(xi ), yi ) n i=1 Intelligence Artificielle 30 mai 2017 16 / 44 Apprentissage supervisé Principe: étant donné un échantillon de données étiquetées S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui lie les données aux étiquettes. h∈H X 3 x −→ y ∈ Y p(.,.) I I I I Y ≡ R : problème de régression Y ≡ ensemble discret(e.g. {0, 1}): problème de classification H peut être un espace fonctionnel ou de densités de probabilités Choix de la fonction de perte et du risque à minimiser (erreur en généralisation) : Z R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy X ×Y I Minimisation du risque empirique n ĥ = arg min h∈H Jamal Atif (Université Paris-Dauphine) 1X `(h(xi ), yi ) n i=1 Intelligence Artificielle 30 mai 2017 16 / 44 Apprentissage supervisé Principe: étant donné un échantillon de données étiquetées S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui lie les données aux étiquettes. h∈H X 3 x −→ y ∈ Y p(.,.) I I I I Y ≡ R : problème de régression Y ≡ ensemble discret(e.g. {0, 1}): problème de classification H peut être un espace fonctionnel ou de densités de probabilités Choix de la fonction de perte et du risque à minimiser (erreur en généralisation) : Z R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy X ×Y I Minimisation du risque empirique n ĥ = arg min h∈H Jamal Atif (Université Paris-Dauphine) 1X `(h(xi ), yi ) n i=1 Intelligence Artificielle 30 mai 2017 16 / 44 Apprentissage supervisé Principe: étant donné un échantillon de données étiquetées S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui lie les données aux étiquettes. h∈H X 3 x −→ y ∈ Y p(.,.) I I I I Y ≡ R : problème de régression Y ≡ ensemble discret(e.g. {0, 1}): problème de classification H peut être un espace fonctionnel ou de densités de probabilités Choix de la fonction de perte et du risque à minimiser (erreur en généralisation) : Z R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy X ×Y I Minimisation du risque empirique n ĥ = arg min h∈H Jamal Atif (Université Paris-Dauphine) 1X `(h(xi ), yi ) n i=1 Intelligence Artificielle 30 mai 2017 16 / 44 Apprentissage supervisé Principe: étant donné un échantillon de données étiquetées S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui lie les données aux étiquettes. h∈H X 3 x −→ y ∈ Y p(.,.) I I I I Y ≡ R : problème de régression Y ≡ ensemble discret(e.g. {0, 1}): problème de classification H peut être un espace fonctionnel ou de densités de probabilités Choix de la fonction de perte et du risque à minimiser (erreur en généralisation) : Z R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy X ×Y I Minimisation du risque empirique n ĥ = arg min h∈H Jamal Atif (Université Paris-Dauphine) 1X `(h(xi ), yi ) n i=1 Intelligence Artificielle 30 mai 2017 16 / 44 Apprentissage supervisé Principe: étant donné un échantillon de données étiquetées S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui lie les données aux étiquettes. h∈H X 3 x −→ y ∈ Y p(.,.) I I I I Y ≡ R : problème de régression Y ≡ ensemble discret(e.g. {0, 1}): problème de classification H peut être un espace fonctionnel ou de densités de probabilités Choix de la fonction de perte et du risque à minimiser (erreur en généralisation) : Z R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy X ×Y I Minimisation du risque empirique n ĥ = arg min h∈H Jamal Atif (Université Paris-Dauphine) 1X `(h(xi ), yi ) n i=1 Intelligence Artificielle 30 mai 2017 16 / 44 Apprentissage supervisé Procédure Apprentissage 6= mémorisation : généralisation vs spécialisation Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 17 / 44 Apprentissage supervisé Risque structurel Soit une séquence infinie d’ensembles d’hypothèses ordonnés par inclusion, H1 ⊂ H2 ⊂ · · · ⊂ Hm ⊂ · · · n 1X `(h(xi ), yi ) + penalty(Hm , m) h∈Hm ,m∈N n i=1 ĥ = arg min I I I Garanties théoriques fortes Complexité de calcul Cadre pour la régularisation : n ĥ = arg min h∈H 1X `(h(xi ), yi ) + λ Reg(h) n i=1 (1) n ĥ = arg min h∈H Jamal Atif (Université Paris-Dauphine) 1X `(h(xi ), yi ) + λ||h||0 n i=1 Intelligence Artificielle (2) 30 mai 2017 18 / 44 Apprentissage non-supervisé Principe: étant donné un échantillon de données non-étiquetées S = {xi , i = 1, · · · , n}, découvrir des régularités en créant des groupes homogènes. I Cadre théorique mal maîtrisé I Challenge pour les années à venir Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 19 / 44 Apprentissage non-supervisé Principe: étant donné un échantillon de données non-étiquetées S = {xi , i = 1, · · · , n}, découvrir des régularités en créant des groupes homogènes. I Cadre théorique mal maîtrisé I Challenge pour les années à venir Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 19 / 44 Apprentissage par renforcement Généralités I Un agent, situé dans le temps et l’espace I I I Evoluant dans un environnement incertain (stochastique) But : sélectionner une action à chaque pas de temps, · · · afin de maximiser une espérance du gain cumulé à horizon temporel fini ou infini Qu’apprend-on une politique = stratégie = {état → action} Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 20 / 44 Allons plus profondément dans la boite ! Réseaux de neurones · · · profonds Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 21 / 44 Anatomie (basique) d’une neurone Figure: A neuron’s basic anatomy consists of four parts: a soma (cell body), dendrites, an axon, and nerve terminals. Information is received by dendrites, gets collected in the cell body, and flows down the axon. Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 22 / 44 Neurone artificiel Terminal Branches of Axon Dendrites x1 w1 x2 x3 w2 w3 S Axon wn xn Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 23 / 44 Perceptron Rosenblatt 1957 Figure: Mark I Perceptron machine Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 24 / 44 Perceptron Apprentissage des poids wi Règle de Hebb En cas de succès, ajouter à chaque connexion quelque chose de proportionnel à l’entrée et à la sortie. Règle du perceptron : apprendre seulement en cas d’échec Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 25 / 44 Apprentissage du Perceptron Exemple : la fonction OR Initialization: w1 (0) = w2 (0) = 1, w3 (0) = −1 t 0 1 2 3 4 5 w1 (t) 1 1 1 1 1 1 w2 (t) 1 1 2 2 2 2 w3 (t) -1 -1 0 0 0 0 Jamal Atif (Université Paris-Dauphine) x(k) 001 011 101 111 001 011 P wi xki -1 0 1 3 0 2 ỹ (k) 0 0 1 1 0 1 Intelligence Artificielle y (k) 0 1 1 1 0 1 ∆w1 (t) 0 0 0 0 0 0 ∆w2 (t) 0 1 0 0 0 0 30 mai 2017 ∆w3 (t) 0 1 0 0 0 0 26 / 44 Perceptron : illustration x(1) = [0, 0]T 0 0 1 t=0 w1 = 1 w2 = 1 a= P i wi xi −1 1 if a > 0 0 elsewhere ỹ = 0 y=0 w3 = −1 wi = wi + (y − ỹ)xi w1 = 1 + 0 ∗ 0 w2 = 1 + 0 ∗ 0 w3 = −1 + 0 ∗ −1 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44 Perceptron : illustration x(2) = [0, 1]T 0 1 1 t=1 w1 = 1 w2 = 1 a= P i wi xi 0 1 if a > 0 0 elsewhere ỹ = 0 y=1 w3 = −1 wi = wi + (y − ỹ)xi w1 = 1 + 1 ∗ 0 = 1 w2 = 1 + 1 ∗ 1 = 2 w3 = −1 + 1 ∗ 1 = 0 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44 Perceptron : illustration x(3) = [1, 0]T 1 0 t=2 w1 = 1 w2 = 2 a= P i wi xi 1 1 if a > 0 0 elsewhere ỹ = 1 y=1 w3 = 0 1 wi = wi + (y − ỹ)xi w1 = 1 + 0 ∗ 0 = 1 w2 = 2 + 0 ∗ 1 = 2 w3 = 0 + 0 ∗ 1 = 0 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44 Perceptron : illustration x(4) = [1, 1]T 1 1 t=3 w1 = 1 w2 = 2 a= P i wi xi 3 1 if a > 0 0 elsewhere ỹ = 1 y=1 w3 = 0 1 wi = wi + (y − ỹ)xi w1 = 1 + 0 ∗ 0 = 1 w2 = 2 + 0 ∗ 1 = 2 w3 = 0 + 0 ∗ −1 = 0 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44 Perceptron : illustration x(1) = [0, 0]T 0 0 t=4 w1 = 1 w2 = 2 a= P i wi xi 0 1 if a > 0 0 elsewhere ỹ = 0 y=0 w3 = 0 1 wi = wi + (y − ỹ)xi w1 = 1 + 0 ∗ 0 = 1 w2 = 2 + 0 ∗ 1 = 2 w3 = 0 + 0 ∗ 1 = 0 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44 Perceptron : illustration x(2) = [0, 1]T 0 1 t=5 w1 = 1 w2 = 2 a= P i wi xi 2 1 if a > 0 0 elsewhere ỹ = 1 y=1 w3 = 0 1 wi = wi + (y − ỹ)xi w1 = 1 + 0 ∗ 0 = 1 w2 = 2 + 0 ∗ 1 = 2 w3 = 0 + 0 ∗ 1 = 0 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44 Perceptron : capacité 1 1 0 0 0 1 0 OR(x1 , x2 ) Jamal Atif (Université Paris-Dauphine) 1 AND(x1 , x2 ) Intelligence Artificielle 30 mai 2017 28 / 44 Perceptron : capacité 1 0 0 1 XOR(x1 , x2 ) Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 28 / 44 Mais ! AND(x1 , x̄2 ) XOR(x1 , x2 ) 1 0 0 1 AND(x̄1 , x2 ) Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 29 / 44 Perceptron Multi-Couches Paul Werbos, 84. Rumelhart, Hinton et al, 86 1 1 b x1 x2 o1 x3 om Output layer xd Input Layer Hidden layers Universal approximation theorem (Cybenko, 89; Hornik 91) : Sous certaines conditions sur les fonctions d’activation, le PMC avec une seule couche cachée composée d’un nombre fini de neurones, peut approcher avec une erreur arbitraire toute fonction dans Rn Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 30 / 44 PMC avec une couche cachée 1 1 b x1 w11 h1 w12 w 21 w1 2 b2 w 31 w 13 x2 w22 h2 w22 w 32 w23 x3 w32 h3 n2 w33 wn 1 d w w2 n3 w Output Layer P 2 f (x) = o(b2 + d i=1 w1 hi (x)) d w1 w 3d xn wd2 Input Layer wnd hd Hidden Layer P hj (x) = g(b + n i=1 wij xi ) Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 31 / 44 PMC: entraînement par retropropagation Chain rule généralisée Chain Rule in Flow Graph …$ …$ Flow!graph:!any!directed!acyclic!graph! !node!=!computa8on!result! !arc!=!computa8on!dependency! ! !!!!!!!!!!!!!!!!!!!!!!!!!!!! !!=!successors!of!! …$ 65! Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 32 / 44 PMC: entraînement par retropropagation XOR x1 P i 1 w11 1 + b11 wi1x i a1 h(x) = 1 1+e−a(x) h1 w12 P 1 w12 k 2 w21 x2 wk2 hk + b2 ao ho (x) = 1 1+e−a(x) ỹ w22 P 1 1 i wi2 x2 + b2 2 w22 b11 a2 h(x) = 1 h2 1+e−a(x) b12 b2 1 Jamal Atif (Université Paris-Dauphine) 1 Intelligence Artificielle 30 mai 2017 33 / 44 PMC: entraînement par retropropagation XOR x1 P i 1 w11 =1 1 + b11 wi1x i a1 h(x) = 1 1+e−a(x) h1 1 w 12 w12 = 1 −1 b11 = k wk2 hk + b2 ao ho (x) = 1 1+e−a(x) ỹ 21 w1 = 1 =1 P i 1 w22 =1 1 b2 = − 1 x2 + b12 wi2 a2 h(x) = 1 h2 1+e−a(x) 1 1 Jamal Atif (Université Paris-Dauphine) b 2 = −1 x2 w22 = 1 P 1 Intelligence Artificielle 30 mai 2017 33 / 44 PMC: entraînement par retropropagation XOR a1 = x1 0 P −1 h1 (x) = 1 1 i wi1xi + b1 1 w11 =1 1 1+e−a1 (x) 0.27 ao = P b11 = 21 w1 1 1+e−ao (x) ỹ = 0.39 y=0 1 w22 =1 P i 1 b2 = − −1 1 wi2 x2 + b12 h2 (x) = 1 1+e−a2 (x) 0.27 1 1 Jamal Atif (Université Paris-Dauphine) b 2 = −1 0 ho (x) = w22 = 1 a2 = x2 −0.46 2 2 k wk hk + b = 1 =1 −1 1 w 12 w12 = 1 1 Intelligence Artificielle 30 mai 2017 33 / 44 PMC: entraînement par retropropagation XOR wk2 = wk2 + ηδk δk = (y − ỹ)(1 − ỹ)ỹhk a1 = x1 0 P −1 h1 (x) = 1 1 i wi1xi + b1 1 =1 w11 1 1+e−a1 (x) w ∂ ỹ ∂ao = ∂E ∂ ỹ ∂ao ∂w 2 0.27 k ao = b11 = P k 21 w1 = 1 =1 −1 1 w 12 w12 = 1 ho (x) = 1 1+e−ao (x) ỹ = 0.39 y=0 1 w22 =1 P i 1 b2 = − −1 1 wi2 x2 + b12 h2 (x) = 1 1+e−a2 (x) 0.27 1 1 Jamal Atif (Université Paris-Dauphine) b 2 = −1 0 wk2 hk + b2 w22 = 1 a2 = x2 −0.46 1 Intelligence Artificielle 30 mai 2017 33 / 44 PMC: entraînement par retropropagation XOR δij = 1 1 wij = wij − ηδij ∂Ew ∂wij = ∂Ew ∂ho ∂ao ∂hj ∂aj ∂ho ∂ao ∂hj ∂aj ∂wij wk2 = wk2 − ηδk δij = −(y − ỹ)(1 − ỹ)ỹwj2 hj (1 − hj )xi δk = ∂Ew 2 , Ew ∂wk = 21 (y − ỹ)2 w ∂ ỹ ∂ao = ∂E ∂ ỹ ∂ao ∂w 2 k a1 = x1 0 P 1 w11 =1 i h1 (x) = 1 + b11 wi1x i 1 1+e−a1 (x) 0.27 w12 = 0.98 ao = =1 P = 21 w1 1 w22 =1 1 b2 = − 1 1+e−ao (x) ỹ = 0.39 y=0 .9 8 i −1 1 wi2 x2 + b12 h2 (x) = 1 1+e−a2 (x) 0.27 1 07 P b 2 = −1. 0 ho (x) = w22 = 0.98 a2 = x2 δk = −(y − ỹ)(1 − ỹ)ỹhk −0.46 2 2 k wk hk + b b11 = 1 −.98 w 12 1 −1 1 w12 = w12 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 0.27 w22 = w22 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 0.27 b2 = b2 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 1 1 w11 = 1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ 0 1 w22 = 1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ 0 .. . b11 = −1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ −1 Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 33 / 44 PMC: entraînement par retropropagation XOR a1 = x1 0 P 1 w11 =1 i h1 (x) = 1 1+e−a1 (x) 0.5 w12 = 0.98 ao = P = 21 w1 1 1+e−ao (x) ỹ ≈ 0.5 y=1 1 w22 =1 1 b2 = − .9 8 i .02 1 wi2 x2 + b12 h2 (x) = 1 1+e−a2 (x) 0.5 1 Jamal Atif (Université Paris-Dauphine) 07 P b 2 = −1. 1 ho (x) = w22 = 0.98 a2 = x2 −0.09 2 2 k wk hk + b b11 = =1 −.98 1 w 12 1 .02 1 + b11 wi1x i 1 Intelligence Artificielle 30 mai 2017 33 / 44 PMC comme un réseau profond PMC avec plus de 2/3 couches est un réseau profond 1 1 b x1 x2 o1 x3 om Output layer xd Input Layer Hidden layers Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 34 / 44 D’où vient la rupture ? Avant 2006, l’entraînement des architectures profondes était sans succès ! Bengio, Hinton, LeCun Essouflement du gradient I Avancées en optimisation stochastique I Pré-entraînement non-supervisé Sur-apprentissage I Techniques de régularisation I Stochastic “dropout" Et surtout I Disponibilité de très grandes masses de données I Disponibilité de moyens de calcul Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 35 / 44 Pré-entraînement non-supervisé Idée principale Initialiser le réseau de façon non-supervisée pas à pas x1 x1 x1 x2 x2 x2 x3 x3 x3 xd xd Input Layer =⇒ xd Input Layer =⇒ Input Layer Modèles dédiés : RBM, Auto-encodeurs, et plusieurs variantes Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 36 / 44 Fine tuning Comment ? I Ajouter la couche de sortie I Initialiser ses poids de façon aléatoire I Mise à jour par rétropprogaration x1 x2 x3 Output Layer xd Input Layer Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 37 / 44 Drop out Intuition Régulariser le réseau en annulant aléatoirement des unités cachées. Procédure Affecter à chaque neurone caché une valeur 0 avec une probabilité p (choix commun : .5) x1 x2 x3 Output Layer xd Input Layer Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 38 / 44 Quelques réseaux d’intérêt Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 39 / 44 Convolutional Neural Networks Lecun, 89– Etat de l’art en vision et autres Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 40 / 44 faces cars Convolutional Neural Networks Etat de l’art en vision et autresConvolutional Lecun, 89– Deep Belief Networks for Scalable Table 2. Test er Labeled training samples 1,000 CDBN 2.62±0.12% 3.21% Ranzato et al. (2007) Hinton and Salakhutdinov (2006) Weston et al. (2008) 2.73% faces Figure 3. Columns 1-4: the secondcars layer bases (top) an categories. Column 5: the second layer bases (top) and object categories (faces, cars, airplanes, motorbikes). Motorbikes Faces 0.6 first layer second layer third layer 0.6 Cars 0.6 first layer second layer third layer first layer second layer third layer calable Unsupervised Learning of Hierarchical Representations 0.4 Jamal Atif (Université Paris-Dauphine) 0 0.4 0.2 0.2 her given reatment ottom-up 0.4 0.2 0.4 0.6 0.8 1 Area under the PR curve (AUC) 0 0.2 0.2 0.4 0.6 0.8 1 Area under the PR curve (AUC) Features Faces First layer 0.39±0.17 Intelligence Artificielle 0 0.2 0.4 0.6 0.8 1 Area under the PR curve (AUC Motorbikes Cars 0.44±0.21 0.43±0.19 30 mai 2017 40 / 44 Réseaux récurrents : LSTM Etat de l’art en TAL Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 41 / 44 Inside AlphaGo Combiner CNN, RL et MCTS Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 42 / 44 Qu’y a t-il de profond en apprentissage profond Paradigmes nouveaux vs anciens Decision Decision Classifier Hand-crafted features Learned features Raw data Jamal Atif (Université Paris-Dauphine) Representation learning Classifier Raw data Intelligence Artificielle 30 mai 2017 43 / 44 Conclusion I Avancées considérables en reconnaissance de formes (solution au paradoxe de Moravec ?) I Continuum mathématique/informatique en apprentissage automatique I Peu de compréhension des réseaux de neurones profonds : problèmes d’interprétation et donc d’acceptabilité I Le futur est pour la combinaison des approches I Nous sommes loins de l’intelligence artificielle générale I · · · un (petit) pas au travers du Deep Reinforcement Learning Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 44 / 44