Intelligence Artificielle MESR - Plan de Formation National Jamal Atif 30 mai 2017

publicité
Intelligence Artificielle
MESR - Plan de Formation National
Jamal Atif
Professeur des Universités
PSL, Université Paris-Dauphine, LAMSADE, CNRS
30 mai 2017
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
1 / 44
Définir l’intelligence artificielle
Une entreprise périlleuse!
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
2 / 44
Acte de naissance
Conférence de Dartmouth en 1956...4 ans après le décès tragique de A. Turing
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
3 / 44
Une définition · · · discutable !
Marvin Minsky
Science qui consiste à faire faire aux machines ce que
l’homme ferait moyennant une certaine intelligence.
Ecueils
I Récursivité de la définition : dépend da définition de l’intelligence
humaine
I
Portée de “faire faire" ?
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
4 / 44
L’héritage de Turing
Turing (1950) “Computing machinery and intelligence”:
I “Can machines think?” −→ “Can machines behave intelligently?”
I Test opérationnel : le jeu de l’imitation
HUMAN
HUMAN
INTERROGATOR
?
AI SYSTEM
I Turing a prédit qu’en 2000, une machine aurait une chance de 30% de tromper un
humain pendant 5 minutes.
I A anticipé tous les arguments contre l’IA dans les 50 ans suivants.
I A suggéré les composantes principales de l’IA : connaissances, raisonnement, TAL,
apprentissage
Problèmes : le test n’est ni reproductible, ni constructif, ni apte à une analyse mathématique
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
5 / 44
Autres définitions· · · tout aussi discutables
I
“Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût
raisonnable, relève de l’I.A.”
I
“L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I
“L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I
“Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I
“L’IA est ce qui est publié dans les conférences et journaux de l’IA”
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
6 / 44
Autres définitions· · · tout aussi discutables
I
“Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût
raisonnable, relève de l’I.A.”
I
“L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I
“L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I
“Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I
“L’IA est ce qui est publié dans les conférences et journaux de l’IA”
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
6 / 44
Autres définitions· · · tout aussi discutables
I
“Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût
raisonnable, relève de l’I.A.”
I
“L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I
“L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I
“Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I
“L’IA est ce qui est publié dans les conférences et journaux de l’IA”
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
6 / 44
Autres définitions· · · tout aussi discutables
I
“Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût
raisonnable, relève de l’I.A.”
I
“L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I
“L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I
“Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I
“L’IA est ce qui est publié dans les conférences et journaux de l’IA”
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
6 / 44
Autres définitions· · · tout aussi discutables
I
“Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût
raisonnable, relève de l’I.A.”
I
“L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I
“L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I
“Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I
“L’IA est ce qui est publié dans les conférences et journaux de l’IA”
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
6 / 44
Un objet protéiforme
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
7 / 44
Une histoire mouvemontée
1943
1950
1952–69
1950s
1956
1965
1966–74
1969
1972
1969–79
1980–88
1988–93
1985–95
1988–
1995–
2006–
McCulloch & Pitts: Boolean circuit model of brain
Turing’s “Computing Machinery and Intelligence”
Look, Ma, no hands!
Early AI programs, including Samuel’s checkers program,
Newell & Simon’s Logic Theorist, Gelernter’s Geometry Engine
Dartmouth meeting: “Artificial Intelligence” adopted
Robinson’s complete algorithm for logical reasoning
AI discovers computational complexity
Minsky and Papert’s “Group Invariance Theorem”
Neural network research almost disappears
Prolog by Alain Colmerauer and Philippe Roussel
Early development of knowledge-based systems
Expert systems industry booms
Expert systems industry busts: “AI Winter”
Neural networks return to popularity (Geff Hinter is there!)
Resurgence of probability; general increase in
technical depth (machine learning)
“Nouvelle AI”: ALife, GAs, soft computing
Agents, agents, everywhere . . .
Human-level AI and neural networks (deep learning)
back on the agenda (Geff Hinton is there!)
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
8 / 44
Que sait on faire aujourd’hui ?
Jouer au Go - AlphaGo, le désormais retraité
Figure: Mars 2016. AlphaGo : 4
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
Lee Sedol (9 d) : 1
30 mai 2017
9 / 44
Que sait on faire aujourd’hui ?
Jouer au Go - AlphaGo, le désormais retraité
Figure: 25 mai 2017. AlphaGo : 3
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
Kee Jie (9 d) : 0
30 mai 2017
9 / 44
Que sait on faire aujourd’hui ?
Jouer au Poker ?
Figure: Libratus: heads-up, no-limit Texas Hold’em. Counterfactual Regret
Minimization (CFR)
Intelligence Artificielle
30 mai 2017
Jamal Atif (Université Paris-Dauphine)
9 / 44
Que sait on faire aujourd’hui ?
Conduire de façon autonome ?
Figure: Waymo Google Car
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
9 / 44
Que sait on faire aujourd’hui ?
Converser ?
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
9 / 44
Que sait on faire aujourd’hui ?
Traduire en temps réel ?
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
9 / 44
Que sait on faire aujourd’hui ?
Dépasser les capacités humaines en reconnaissance de formes ?
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
9 / 44
Que sait on faire aujourd’hui ?
I
Composer de la musique ?
I
Jouer à la bourse comme des traders professionnels ?
I
Détecter des tumeurs ?
I
Traduire l’activité cérébrale en signal moteur ?
I
...
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
10 / 44
Raisons d’un engouement !
I
Avancées dans l’ensemble des champs disciplinaires : Rep. des
connaissances (knowledge graph), raisonnement (complexité), SAT,
théorie de l’apprentissage, etc.
I
Disponibilité de grandes masses de données
I
Disponibilité des moyens de calcul
I
Percée de l’apprentissage automatique et des modèles neuronaux profond
I
Représentation des connaissances et raisonnement sur des données à
grande échelle
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
11 / 44
Ouvrons la boite !
Apprentissage automatique
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
12 / 44
Apprentissage automatique
Définition imprécise
Doter les machines de capacités
I
d’extraction automatique de “connaissances” à partir de masses de
données
I
et d’auto-amélioration à partir d’expérience
Définition moins imprécise (Tom Mitchell)
A computer program is said to learn from experience E with respect to some
class of tasks T and performance measure P , if its performance at tasks in T ,
as measured by P , improves with experience E.
Jeu de dame : T jouer au dame, P % de parties gagnées, E mouvements connus ou pratique
du jeu
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
13 / 44
Apprentissage automatique
Définition imprécise
Doter les machines de capacités
I
d’extraction automatique de “connaissances” à partir de masses de
données
I
et d’auto-amélioration à partir d’expérience
Définition moins imprécise (Tom Mitchell)
A computer program is said to learn from experience E with respect to some
class of tasks T and performance measure P , if its performance at tasks in T ,
as measured by P , improves with experience E.
Jeu de dame : T jouer au dame, P % de parties gagnées, E mouvements connus ou pratique
du jeu
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
13 / 44
Grandes figures de l’apprentissage automatique
I
Apprentissage supervisé
I
Apprentissage non-supervisé
I
Apprentissage par renforcement
I
Apprentissage actif
I
Transfert d’apprentissage, par analogie, de préférences, etc.
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
14 / 44
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
15 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)
I
I
I
I
Y ≡ R : problème de régression
Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
H peut être un espace fonctionnel ou de densités de probabilités
Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] =
`(h(x), y)pXY (x, y)dxdy
X ×Y
I
Minimisation du risque empirique
n
ĥ = arg min
h∈H
Jamal Atif (Université Paris-Dauphine)
1X
`(h(xi ), yi )
n i=1
Intelligence Artificielle
30 mai 2017
16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)
I
I
I
I
Y ≡ R : problème de régression
Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
H peut être un espace fonctionnel ou de densités de probabilités
Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] =
`(h(x), y)pXY (x, y)dxdy
X ×Y
I
Minimisation du risque empirique
n
ĥ = arg min
h∈H
Jamal Atif (Université Paris-Dauphine)
1X
`(h(xi ), yi )
n i=1
Intelligence Artificielle
30 mai 2017
16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)
I
I
I
I
Y ≡ R : problème de régression
Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
H peut être un espace fonctionnel ou de densités de probabilités
Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] =
`(h(x), y)pXY (x, y)dxdy
X ×Y
I
Minimisation du risque empirique
n
ĥ = arg min
h∈H
Jamal Atif (Université Paris-Dauphine)
1X
`(h(xi ), yi )
n i=1
Intelligence Artificielle
30 mai 2017
16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)
I
I
I
I
Y ≡ R : problème de régression
Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
H peut être un espace fonctionnel ou de densités de probabilités
Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] =
`(h(x), y)pXY (x, y)dxdy
X ×Y
I
Minimisation du risque empirique
n
ĥ = arg min
h∈H
Jamal Atif (Université Paris-Dauphine)
1X
`(h(xi ), yi )
n i=1
Intelligence Artificielle
30 mai 2017
16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)
I
I
I
I
Y ≡ R : problème de régression
Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
H peut être un espace fonctionnel ou de densités de probabilités
Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] =
`(h(x), y)pXY (x, y)dxdy
X ×Y
I
Minimisation du risque empirique
n
ĥ = arg min
h∈H
Jamal Atif (Université Paris-Dauphine)
1X
`(h(xi ), yi )
n i=1
Intelligence Artificielle
30 mai 2017
16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)
I
I
I
I
Y ≡ R : problème de régression
Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
H peut être un espace fonctionnel ou de densités de probabilités
Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] =
`(h(x), y)pXY (x, y)dxdy
X ×Y
I
Minimisation du risque empirique
n
ĥ = arg min
h∈H
Jamal Atif (Université Paris-Dauphine)
1X
`(h(xi ), yi )
n i=1
Intelligence Artificielle
30 mai 2017
16 / 44
Apprentissage supervisé
Procédure
Apprentissage 6= mémorisation : généralisation vs spécialisation
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
17 / 44
Apprentissage supervisé
Risque structurel
Soit une séquence infinie d’ensembles d’hypothèses ordonnés par inclusion,
H1 ⊂ H2 ⊂ · · · ⊂ Hm ⊂ · · ·
n
1X
`(h(xi ), yi ) + penalty(Hm , m)
h∈Hm ,m∈N n i=1
ĥ = arg min
I
I
I
Garanties théoriques fortes
Complexité de calcul
Cadre pour la régularisation :
n
ĥ = arg min
h∈H
1X
`(h(xi ), yi ) + λ Reg(h)
n i=1
(1)
n
ĥ = arg min
h∈H
Jamal Atif (Université Paris-Dauphine)
1X
`(h(xi ), yi ) + λ||h||0
n i=1
Intelligence Artificielle
(2)
30 mai 2017
18 / 44
Apprentissage non-supervisé
Principe: étant donné un échantillon de données non-étiquetées
S = {xi , i = 1, · · · , n}, découvrir des régularités en créant des groupes
homogènes.
I
Cadre théorique mal maîtrisé
I
Challenge pour les années à venir
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
19 / 44
Apprentissage non-supervisé
Principe: étant donné un échantillon de données non-étiquetées
S = {xi , i = 1, · · · , n}, découvrir des régularités en créant des groupes
homogènes.
I
Cadre théorique mal maîtrisé
I
Challenge pour les années à venir
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
19 / 44
Apprentissage par renforcement
Généralités
I Un agent, situé dans le temps et l’espace
I
I
I
Evoluant dans un environnement incertain (stochastique)
But : sélectionner une action à chaque pas de temps,
· · · afin de maximiser une espérance du gain cumulé à horizon temporel
fini ou infini
Qu’apprend-on
une politique = stratégie = {état → action}
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
20 / 44
Allons plus profondément dans la boite !
Réseaux de neurones · · · profonds
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
21 / 44
Anatomie (basique) d’une neurone
Figure: A neuron’s basic anatomy consists of four parts: a soma (cell body),
dendrites, an axon, and nerve terminals. Information is received by dendrites,
gets collected in the cell body, and flows down the axon.
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
22 / 44
Neurone artificiel
Terminal Branches
of Axon
Dendrites
x1
w1
x2
x3
w2
w3
S
Axon
wn
xn
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
23 / 44
Perceptron
Rosenblatt 1957
Figure: Mark I Perceptron machine
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
24 / 44
Perceptron
Apprentissage des poids wi
Règle de Hebb
En cas de succès, ajouter à chaque connexion quelque chose de proportionnel à
l’entrée et à la sortie.
Règle du perceptron : apprendre seulement en cas d’échec
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
25 / 44
Apprentissage du Perceptron
Exemple : la fonction OR
Initialization: w1 (0) = w2 (0) = 1, w3 (0) = −1
t
0
1
2
3
4
5
w1 (t)
1
1
1
1
1
1
w2 (t)
1
1
2
2
2
2
w3 (t)
-1
-1
0
0
0
0
Jamal Atif (Université Paris-Dauphine)
x(k)
001
011
101
111
001
011
P
wi xki
-1
0
1
3
0
2
ỹ (k)
0
0
1
1
0
1
Intelligence Artificielle
y (k)
0
1
1
1
0
1
∆w1 (t)
0
0
0
0
0
0
∆w2 (t)
0
1
0
0
0
0
30 mai 2017
∆w3 (t)
0
1
0
0
0
0
26 / 44
Perceptron : illustration
x(1) = [0, 0]T
0
0
1
t=0
w1 = 1
w2 = 1
a=
P
i
wi xi
−1
1 if a > 0
0 elsewhere
ỹ = 0
y=0
w3 = −1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0
w2 = 1 + 0 ∗ 0
w3 = −1 + 0 ∗ −1
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
27 / 44
Perceptron : illustration
x(2) = [0, 1]T
0
1
1
t=1
w1 = 1
w2 = 1
a=
P
i
wi xi
0
1 if a > 0
0 elsewhere
ỹ = 0
y=1
w3 = −1
wi = wi + (y − ỹ)xi
w1 = 1 + 1 ∗ 0 = 1
w2 = 1 + 1 ∗ 1 = 2
w3 = −1 + 1 ∗ 1 = 0
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
27 / 44
Perceptron : illustration
x(3) = [1, 0]T
1
0
t=2
w1 = 1
w2 = 2
a=
P
i
wi xi
1
1 if a > 0
0 elsewhere
ỹ = 1
y=1
w3 = 0
1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ 1 = 0
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
27 / 44
Perceptron : illustration
x(4) = [1, 1]T
1
1
t=3
w1 = 1
w2 = 2
a=
P
i
wi xi
3
1 if a > 0
0 elsewhere
ỹ = 1
y=1
w3 = 0
1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ −1 = 0
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
27 / 44
Perceptron : illustration
x(1) = [0, 0]T
0
0
t=4
w1 = 1
w2 = 2
a=
P
i
wi xi
0
1 if a > 0
0 elsewhere
ỹ = 0
y=0
w3 = 0
1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ 1 = 0
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
27 / 44
Perceptron : illustration
x(2) = [0, 1]T
0
1
t=5
w1 = 1
w2 = 2
a=
P
i
wi xi
2
1 if a > 0
0 elsewhere
ỹ = 1
y=1
w3 = 0
1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ 1 = 0
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
27 / 44
Perceptron : capacité
1
1
0
0
0
1
0
OR(x1 , x2 )
Jamal Atif (Université Paris-Dauphine)
1
AND(x1 , x2 )
Intelligence Artificielle
30 mai 2017
28 / 44
Perceptron : capacité
1
0
0
1
XOR(x1 , x2 )
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
28 / 44
Mais !
AND(x1 , x̄2 )
XOR(x1 , x2 )
1
0
0
1
AND(x̄1 , x2 )
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
29 / 44
Perceptron Multi-Couches
Paul Werbos, 84. Rumelhart, Hinton et al, 86
1
1
b
x1
x2
o1
x3
om
Output layer
xd
Input Layer
Hidden layers
Universal approximation theorem (Cybenko, 89; Hornik 91) :
Sous certaines conditions sur les fonctions d’activation, le PMC avec
une seule couche cachée composée d’un nombre fini de neurones, peut
approcher avec une erreur arbitraire toute fonction dans Rn
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
30 / 44
PMC avec une couche cachée
1
1
b
x1
w11
h1
w12
w 21
w1
2
b2
w 31
w
13
x2
w22
h2
w22
w 32
w23
x3
w32
h3
n2
w33
wn
1
d
w
w2
n3
w
Output Layer
P
2
f (x) = o(b2 + d
i=1 w1 hi (x))
d
w1
w 3d
xn
wd2
Input Layer
wnd
hd
Hidden Layer
P
hj (x) = g(b + n
i=1 wij xi )
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
31 / 44
PMC: entraînement par retropropagation
Chain rule généralisée
Chain Rule in Flow Graph
…$
…$
Flow!graph:!any!directed!acyclic!graph!
!node!=!computa8on!result!
!arc!=!computa8on!dependency!
!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!
!!=!successors!of!!
…$
65!
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
32 / 44
PMC: entraînement par retropropagation
XOR
x1
P
i
1
w11
1
+ b11
wi1x
i
a1
h(x) =
1
1+e−a(x)
h1
w12
P
1
w12
k
2
w21
x2
wk2 hk + b2
ao
ho (x) =
1
1+e−a(x)
ỹ
w22
P
1
1
i wi2 x2 + b2
2
w22
b11
a2
h(x) =
1
h2
1+e−a(x)
b12
b2
1
Jamal Atif (Université Paris-Dauphine)
1
Intelligence Artificielle
30 mai 2017
33 / 44
PMC: entraînement par retropropagation
XOR
x1
P
i
1
w11
=1
1
+ b11
wi1x
i
a1
h(x) =
1
1+e−a(x)
h1
1
w 12
w12 = 1
−1
b11 =
k
wk2 hk + b2
ao
ho (x) =
1
1+e−a(x)
ỹ
21
w1
=
1
=1
P
i
1
w22
=1
1
b2
=
−
1
x2 + b12
wi2
a2
h(x) =
1
h2
1+e−a(x)
1
1
Jamal Atif (Université Paris-Dauphine)
b 2 = −1
x2
w22 = 1
P
1
Intelligence Artificielle
30 mai 2017
33 / 44
PMC: entraînement par retropropagation
XOR
a1 =
x1
0
P
−1
h1 (x) =
1
1
i wi1xi + b1
1
w11
=1
1
1+e−a1 (x)
0.27
ao =
P
b11 =
21
w1
1
1+e−ao (x)
ỹ = 0.39
y=0
1
w22
=1
P
i
1
b2
=
−
−1
1
wi2
x2 + b12
h2 (x) =
1
1+e−a2 (x)
0.27
1
1
Jamal Atif (Université Paris-Dauphine)
b 2 = −1
0
ho (x) =
w22 = 1
a2 =
x2
−0.46
2
2
k wk hk + b
=
1
=1
−1
1
w 12
w12 = 1
1
Intelligence Artificielle
30 mai 2017
33 / 44
PMC: entraînement par retropropagation
XOR
wk2 = wk2 + ηδk
δk = (y − ỹ)(1 − ỹ)ỹhk
a1 =
x1
0
P
−1
h1 (x) =
1
1
i wi1xi + b1
1
=1
w11
1
1+e−a1 (x)
w ∂ ỹ ∂ao
= ∂E
∂ ỹ ∂ao ∂w 2
0.27
k
ao =
b11 =
P
k
21
w1
=
1
=1
−1
1
w 12
w12 = 1
ho (x) =
1
1+e−ao (x)
ỹ = 0.39
y=0
1
w22
=1
P
i
1
b2
=
−
−1
1
wi2
x2 + b12
h2 (x) =
1
1+e−a2 (x)
0.27
1
1
Jamal Atif (Université Paris-Dauphine)
b 2 = −1
0
wk2 hk + b2
w22 = 1
a2 =
x2
−0.46
1
Intelligence Artificielle
30 mai 2017
33 / 44
PMC: entraînement par retropropagation
XOR
δij =
1
1
wij
= wij
− ηδij
∂Ew
∂wij
=
∂Ew ∂ho ∂ao ∂hj ∂aj
∂ho ∂ao ∂hj ∂aj ∂wij
wk2 = wk2 − ηδk
δij = −(y − ỹ)(1 − ỹ)ỹwj2 hj (1 − hj )xi
δk =
∂Ew
2 , Ew
∂wk
= 21 (y − ỹ)2
w ∂ ỹ ∂ao
= ∂E
∂ ỹ ∂ao ∂w 2
k
a1 =
x1
0
P
1
w11
=1
i
h1 (x) =
1
+ b11
wi1x
i
1
1+e−a1 (x)
0.27
w12 = 0.98
ao =
=1
P
=
21
w1
1
w22
=1
1
b2
=
−
1
1+e−ao (x)
ỹ = 0.39
y=0
.9
8
i
−1
1
wi2
x2 + b12
h2 (x) =
1
1+e−a2 (x)
0.27
1
07
P
b 2 = −1.
0
ho (x) =
w22 = 0.98
a2 =
x2
δk = −(y − ỹ)(1 − ỹ)ỹhk
−0.46
2
2
k wk hk + b
b11 =
1
−.98
w 12
1
−1
1
w12 = w12 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 0.27
w22 = w22 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 0.27
b2 = b2 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 1
1
w11
= 1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ 0
1
w22
= 1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ 0
..
.
b11 = −1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ −1
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
33 / 44
PMC: entraînement par retropropagation
XOR
a1 =
x1
0
P
1
w11
=1
i
h1 (x) =
1
1+e−a1 (x)
0.5
w12 = 0.98
ao =
P
=
21
w1
1
1+e−ao (x)
ỹ ≈ 0.5
y=1
1
w22
=1
1
b2
=
−
.9
8
i
.02
1
wi2
x2 + b12
h2 (x) =
1
1+e−a2 (x)
0.5
1
Jamal Atif (Université Paris-Dauphine)
07
P
b 2 = −1.
1
ho (x) =
w22 = 0.98
a2 =
x2
−0.09
2
2
k wk hk + b
b11 =
=1
−.98
1
w 12
1
.02
1
+ b11
wi1x
i
1
Intelligence Artificielle
30 mai 2017
33 / 44
PMC comme un réseau profond
PMC avec plus de 2/3 couches est un réseau profond
1
1
b
x1
x2
o1
x3
om
Output layer
xd
Input Layer
Hidden layers
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
34 / 44
D’où vient la rupture ?
Avant 2006, l’entraînement des architectures profondes était sans succès !
Bengio, Hinton, LeCun
Essouflement du gradient
I
Avancées en optimisation stochastique
I
Pré-entraînement non-supervisé
Sur-apprentissage
I
Techniques de régularisation
I
Stochastic “dropout"
Et surtout
I Disponibilité de très grandes masses de données
I
Disponibilité de moyens de calcul
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
35 / 44
Pré-entraînement non-supervisé
Idée principale
Initialiser le réseau de façon non-supervisée pas à pas
x1
x1
x1
x2
x2
x2
x3
x3
x3
xd
xd
Input Layer
=⇒
xd
Input Layer
=⇒
Input Layer
Modèles dédiés : RBM, Auto-encodeurs, et plusieurs variantes
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
36 / 44
Fine tuning
Comment ?
I Ajouter la couche de sortie
I
Initialiser ses poids de façon aléatoire
I
Mise à jour par rétropprogaration
x1
x2
x3
Output Layer
xd
Input Layer
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
37 / 44
Drop out
Intuition
Régulariser le réseau en annulant aléatoirement des unités cachées.
Procédure
Affecter à chaque neurone caché une valeur 0 avec une probabilité p (choix
commun : .5)
x1
x2
x3
Output Layer
xd
Input Layer
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
38 / 44
Quelques réseaux d’intérêt
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
39 / 44
Convolutional Neural Networks
Lecun, 89–
Etat de l’art en vision et autres
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
40 / 44
faces
cars
Convolutional Neural Networks
Etat de l’art en vision et autresConvolutional
Lecun, 89–
Deep Belief Networks for Scalable
Table 2. Test er
Labeled training samples
1,000
CDBN
2.62±0.12%
3.21%
Ranzato et al. (2007)
Hinton and Salakhutdinov (2006)
Weston et al. (2008)
2.73%
faces
Figure 3. Columns
1-4: the secondcars
layer bases (top) an
categories. Column 5: the second layer bases (top) and
object categories (faces, cars, airplanes, motorbikes).
Motorbikes
Faces
0.6
first layer
second layer
third layer
0.6
Cars
0.6
first layer
second layer
third layer
first layer
second layer
third layer
calable Unsupervised Learning of Hierarchical Representations
0.4
Jamal Atif (Université Paris-Dauphine)
0
0.4
0.2
0.2
her given
reatment
ottom-up
0.4
0.2
0.4
0.6
0.8
1
Area under the PR curve (AUC)
0
0.2
0.2
0.4
0.6
0.8
1
Area under the PR curve (AUC)
Features
Faces
First
layer
0.39±0.17
Intelligence Artificielle
0
0.2
0.4
0.6
0.8
1
Area under the PR curve (AUC
Motorbikes
Cars
0.44±0.21
0.43±0.19
30 mai 2017
40 / 44
Réseaux récurrents : LSTM
Etat de l’art en TAL
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
41 / 44
Inside AlphaGo
Combiner CNN, RL et MCTS
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
42 / 44
Qu’y a t-il de profond en apprentissage profond
Paradigmes nouveaux vs anciens
Decision
Decision
Classifier
Hand-crafted
features
Learned
features
Raw data
Jamal Atif (Université Paris-Dauphine)
Representation learning
Classifier
Raw data
Intelligence Artificielle
30 mai 2017
43 / 44
Conclusion
I
Avancées considérables en reconnaissance de formes (solution au paradoxe
de Moravec ?)
I
Continuum mathématique/informatique en apprentissage automatique
I
Peu de compréhension des réseaux de neurones profonds : problèmes
d’interprétation et donc d’acceptabilité
I
Le futur est pour la combinaison des approches
I
Nous sommes loins de l’intelligence artificielle générale
I
· · · un (petit) pas au travers du Deep Reinforcement Learning
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle
30 mai 2017
44 / 44
Téléchargement