idoc.pub machine-learning-computational-learning-theorypdf.en.fr

Telechargé par scholastiqueessomba
Théorie de l'apprentissage
Théorèmes qui caractérisent des classes de problèmes d'apprentissage ou des
algorithmes spécifiques en termes de complexité de calcul ou
complexité de
l'échantillon
,
et
c'est-à-dire le nombre d'exemples d'entraînement nécessaires
ou suffisants pour apprendre des hypothèses d'une précision donnée.
CS 391L : Apprentissage automatique :
théorie de l'apprentissage computationnel La complexité d'un problème d'apprentissage dépend :
Taille ou expressivité de l'espace d'hypothèses.
Précision à laquelle le concept cible doit être approximé d.à
Probabilité avec laquelle l'apprenant doit produireccsessful
hypothèse.
Raymond J. Mooney Manière dont les exemples de formation sont présentés. ,ra fr. domly ou
par requête à un oracle.
Université du Texas à Austin
1 2
Types de résultats Apprendre dans la limite
Apprendre dans la limite:L'apprenant est-il assuré de
converger vers l'hypothèse correcte dans la limite lorsque le
nombre d'exemples de formation augmente indéfiniment ?
Étant donné un flux continu d'exemples où l'apprenant prédit
si chacun est membre du concept ou non et reçoit ensuite la
bonne réponse, l'apprenant finit-il par converger vers un
concept correct et ne fait plus jamais d'erreur.
Complexité de l'échantillon:Combien d’exemples de formation sont
nécessaires à un apprenant pour construire (avec une forte probabilité) un
concept très précis ? Aucune limite quant au nombre d'exemples requis ou aux exigences de
calcul, mais il faut éventuellement apprendre le concept exactement,
même s'il n'est pas nécessaire de reconnaître explicitement ce point de
convergence.
Complexité informatique:De combien de ressources
informatiques (temps et espace) un apprenant a-t-il besoin
pour construire (avec une forte probabilité) un concept très
précis ? Par simple énumération, les concepts de tout espace d'hypothèses
fini connu peuvent être appris à la limite, bien que cela nécessite
généralement un nombre exponentiel (ou doublement exponentiel)
d'exemples et de temps.
Une complexité d'échantillon élevée implique une capacité de calcul élevée l complexité,
puisque l'apprenant doit au moins lire les données d'entrée
Erreur liée:En apprenant de manière progressive, combien
d'exemples de formation l'apprenant va-t-il mal classer avant
de construire un concept très précis. La classe des fonctions récursives totales (calculables par Turing)
n'est pas apprenable à la limite.
3 4
Problème impossible à apprendre Apprendre dans la limite vs.
Modèle PAC
Identifier la fonction sous-jacente à une suite ordonnée de nombres
naturels
t
(:N→N),deviner le nombre suivant dans la séquence et se faire
ensuite indiquer la valeur correcte.
L'apprentissage dans le modèle limite est trop fort.
Nécessite l'apprentissage d'un concept exact et correct
Pour tout algorithme d'apprentissage donné
L
, il existe une fonction
t
n(
n
) qu'il
ne peut pas apprendre dans la limite. L'apprentissage dans le modèle limite est trop faible
Étant donné l’algorithme d’apprentissage
L
en tant que machine de Turing :
D
L h
(
n
)
Permet des données et des ressources informatiques illimitées.
Modèle PAC
Construisez une fonction qu'elle ne peut pas apprendre:
<
t
(0),
t
(1),…
t
(
n
-1)> Nécessite seulement un apprentissage
P
un
probablement Environ
Correct
Concept : Apprenez une approximation décente la plupart
du temps.
t
(
n
)
L
Exemple de trace { Nécessite une complexité d'échantillon polynomiale et
une complexité de calcul.
Oracle : 1 3 6 11…..
Apprenant:0 2 5 10
h
:
h
(
n
)=
h
(
n
-1)+
n
+1
h
(
n
) + 1
5 6
1
naturel
pos int
entier impair
Traduit de Anglais vers Français - www.onlinedoctranslator.com
Impossible d'apprendre des concepts exacts à partir de
données limitées, seulement des approximations
Je ne peux même pas apprendre des concepts approximatifs
à partir des ensembles d'entraînement pathologique
Positif
Positif
Négatif Apprenant Classificateur Apprenant Classificateur
Négatif
P t
Noesgiaivtieve Nes
Pogiatitvivee
7 8
Apprentissage PAC Définition formelle de PAC-Learnable
La seule attente raisonnable d’un apprenant est
qu’avec
forte probabilité
il apprend un
approximation proche
au concept cible.
Considérons un concept cla
C
ssdefined sur un espace d'instance
X
contenant des instances de leng
n
e, et un apprenant
L
,, en utilisant
un espace d'hypothèses
H
,.
C
on dit que c'est
PAC-apprenable
par
L
en utilisant
H
ssi pour tous
c
C
, distributions
D
sur
X
, 0<ε<0,5,
0<δ<0,5; apprenant
L
en échantillonnant des exemples aléatoires à
partir de la distribution
D
, produira une hypothèse avec une
probabilité d'au moins −1 δ
h
H
tel que l'erreur
D
r(h)ε,en temps
polynôme en 1/ε, 1/δ,
n
et la taille
c
().
Dans le modèle PAC, nous spécifions deux petits
paramètresε, etδ, et exigeons qu'avec une
probabilité d'au moins (1δ) un système apprenne
un concept avec une erreur au mosε.t
Exemple:
X:
cas décrits b
n
Caractéristiques binaires
C:
descriptions conjonctives sur ces caractéristiques
H
: descriptions conjonctives sur ces caractéristiques
L
:algorithme de généralisation conjonctive le plus spécifiquerith(Trouver-S)
taille(c)
:le nombre de littéraux dans
c
(c'est-à-dire la longueur de la conjonction).
9 10
Problèmes d'apprentissage du PAC Apprenants réguliers
La limitation de calcul impose également une contrainte
polynomiale sur la taille de l’ensemble d’apprentissage,
puisqu’un apprenant peut traiter au maximum des données
polynomiales en temps polynomial.
Un apprenant
L
en utilisant une hypothèse
H
s et données de formation
D
est dit être un apprenant cohérent s'il génère toujours
une hypothèse avec une erreur nulle
D
à chaque fois que
H
contient une telle hypothèse.
Comment prouver la capacité d'apprentissage du PAC: Par définition, un apprenant cohérent doit produire une
hypothèse dans l'espace des versions
H
pardonné
D
.
Démontrer d'abord la complexité de l'apprentissage par l'échantillon
C
gusant
H
est
polynôme.
Deuxièmement, prouvez que l’apprenant peut s’entraîner sur un
ensemble de données de taille polynomiale en temps polynomial. Par conséquent, pour limiter le nombre d’exemples nécessaires à
un apprenant cohérent, nous devons simplement limiter le nombre
d’exemples nécessaires pour garantir que l’espace de version ne
contient aucune hypothèse avec un taux d’erreur inacceptable.
Pour que le PAC puisse être appris, il doit y avoir une hypothèse dans
H
avec une erreur arbitrairement petite pour chaque concept dans
C
, en
général
C
H.
11 12
2
Espace de version ε-épuisé Preuve
L'espace des versions, V
H
S
,
D
, est censé êtreε
-épuisé
si et seulement si
l'hypothèse dans laquelle elle contient une erreur vraie inférieure ou égale à
Laisser
H
mauvais={
h
1,…
h
k} soit le sous-ensemble de H avec errorε>. Le
VS n'est pasε-épuisé si l'un de ces éléments est cohérent avec
m
tous
les exemples.
En d'autres termes, il existe suffisamment d'exemples de formation pour
garantir que toute hypothèse cohérente comporte une erreur aεt .most Un seul
hje
H
mauvaisest cohérent avec
un
exemple avec
probabilité :
On ne peut jamais être sûr que la version-spaεc-existe, mais on
peut limiter la probabilité qu'elle n'existe pas.
P
(consister(
hje
,
etj
))(1
ε
)
Théorème 7.1(Haussler, 1988) : Si l'hypothèse spa
H
cies
fini, et
D
est une séquence o
m
f1 exemple aléatoire
indépendant pour une certaine cible conce
c
,ppuis pour tout0 ε1,
la probabilité que l'espace de version
H
V,
D
Sœur
pas
ε-
épuisé est inférieur ou égal à :
Un seul
hje
H
mauvaisest cohérent avec
tousm
exemples aléatoires
indépendants avec probabilité :
P
(consister(
hje
,
D
))≤ −
ε
(1 )
m
La probabilité que
un
t
New Yorkhje
H
mauvaisest cohérent avec al
m
Les exemples sont :
l
|H|et
εm
P
(consister(
Hmauvais
,
D
)) =
P
(consister(
h
1,
D
)Lconsister(
hk
,
D
))
13 14
Preuve (suite) Analyse de la complexité des échantillons
Étant donné que la probabilité d’une disjonction d’événements
à
est
la plupart
la somme des probabilités de l'individu etvse:n
Soit δ une borne supérieure de la probabilité
n
de
t
épuiser l'espace de version. Donc :
P
(consister(
Hmauvais
,
D
))
Hmauvais
(1
ε
)
mP
(consister(
Hmauvais
,
D
))
Il
εm
δ
δ
H
et
εm
Depuis:
H
|mauvais||
H
| et
P
(consister(
Hba
(1ε–)
m
et–ε
m
, 0ε 1,
m
0
d
,
D
))
Il
εm
δ
H
εm
ln( )
-
δ
-
-
CQFD
m
-
-
-dans
H
- /
ε
((inverser l'inégalité)
-
-
H
-
δ
-
m
-
-ln -
- /
ε
-
-
m
-dans 1
δ
-
+dans
H
- /
ε
-
15 -16
Résultat de la complexité de l'échantillon Exemple de complexité de l'apprentissage des conjonctions
Par conséquent, tout apprenant cohérent, étant donné au moins : Considérez les conjonctions sur
n
fonctionnalités rbooléennes. Il y a
n
eo3f ceux-ci
puisque chaque caractéristique peut apparaître positivement, de manière apparente
ou ne pas apparaître dans une conjonction donnée. Par conséquent, |H|=so3un
nombre suffisant d'exemples pour apprendre un concept PAC est :
-
-ln 1
δ
-
+dans
H
- /
εn,
-
les exemples produiront un résultat qui est PAC.
--
-ln 1
δ
-
+en 3
n
- /
ε
= -dans
-
-
1
δ
-
+
n
en 3- /
ε
Il suffit de déterminer la taille d'une hypothèse ouais
instanciez ce résultat pour apprendre des concepts
spécifiques.
- - -
Exemples concrets :
δ=ε=0,05,
n
=10 donne 280 exemples
δ=0,01,ε=0,05,
n
=10 donne 312 exemples
δ=ε=0,01,
n
=10 donne 1 560 exemples
δ=ε=0,01,
n
=50 donne 5 954 exemples
Le résultat est valable pour tout apprenant cohérent, y comprisFiningdS.
Cela donne un
suffisant
nombre d'exemples pour
l'apprentissage PAC, mais
pas
un
nécessaire
nombre. Plusieurs
approximations comme celle utilisée pour délimiter le probc'estybouillir un
la disjonction en fait une surestimation grossière de intpicrea.c
17 18
3
Exemple de complexité de l'apprentissage
Fonctions booléennes arbitraires Autres cours conceptuels
Considérez n’importe quelle fonction booléenne ov
n
fonctionnalités erbooléennes
telles que l'espace d'hypothèses de DNF ou les arbres de décision.2un
n
de ceux-ci,
donc un nombre suffisant d'exemples pour apprendre un PAC cont cise:p
k
-terme DNF : Disjonctions d'au moins mo
k
termes
conjonctifs stupéfiés :
T
1
T
2L
Tk
ln(|
H
|)=O(
je
)
-
-1
δ
-
/
ε
= -ln 1
δ
-
- /
ε
dans
+en 22
n
-
-+2
n
en 2
k
-DNF : Disjonctions d'un nombre quelconque de termes, chacune limitée à
-- - -au plus
k
littéraux : ((
L
1
L
2L
Lk
)(
M
1
M
2L
Mk
)L
ln(|
H
|)=O(
nk
)
Exemples concrets :
δ=ε=0,05,
n
=10 donne 14 256 exemples
k
-clause CNF : Conjonctions de à mo
k
clauses
disjonctives délimitées
C
:1
C
2L
Ck
δ=ε=0,05,
n
=20 donne 14 536 410 exemples
δ=ε=0,05,
n
=50 donne 1,56x11016Exemples ln(|
H
|)=O(
je
)
k
-CNF : Conjonctions d'un nombre quelconque de clauses, chacune
limitée à un maximum de
k
littéraux:((
L
1
L
2L
Lk
)(
M
1
M
2L
Mk
)L
ln(|
H
|)=O(
nk
)
Par conséquent, toutes ces classes ont une complexité d'échantillon
polynomiale étant donné une valeur fixe o
k
f.
19 20
Comptage combinatoire de base Complexité computationnelle de l'apprentissage
doublons autorisés
échantillons
sélections
les doublons ne sont pas autorisés
permutations
combinaisons
Cependant, il faut déterminer s’il existe ou non
k
t-stearm DNF ou
k
-
clause CNF formule cohérente avec un trainsineg donné t est NP-dur.
Par conséquent, ces classes ne sont pas apprenables par PAC pour atteindre une complexité
informatique réduite.
commander pertinent
ordre non pertinent
échantillons
aa
un b
ba
bb
permutations
un b
ba
sélections
aa
un b
bb
combinaisons
un b
Il existe des algorithmes de temps polynomial pour apprendre
k
en-CgNF et
k
-DNF.
Construisez toutes les clauses disjonctives possibles (contjuuve) ncterms) de à
la plupart
k
littéraux (il y a O
n
(
k
) de ceux-ci), ajoutez chacun comme une
nouvelle fonctionnalité construite, puis utilisez FIND-S (FIND-G) pour trouver
un concept conjonctif (disjonctif) en termes de ces complexes.
Choisissez 2 parmi
{a, b}
-
n
+
k
1-
k - sélections :-- (
n
+
k
1)!
k
!(
n
1)!
n
!
Étendu
données avec O
n
(
k
)
nouvelles fonctionnalités
Données pour
k
-CNF
concept
Construire tout
disj. caractéristiques
aveck littéraux
k
-CNF
formule
k - échantillons :
nk
k - permutations :
-- =
-
Trouver-S
n
!-
k
-
n
-
k - combinaisons :-- -- =
(
n
k
)! -
k
-
k
!(
n
k
)! Exemple de complexité d'apprentissage
k
-DNF et
k
-CNF sont O(
nk
) Formation sur
O(
nk
) exemples avec O(
nk
) caractéristiques prend O(
n
2
k
) temps
Tous les O(
nk
)21 22
Élargir l'espace d'hypothèses pour faire
Formation Calcul Tractable Algorithmes probabilistes
Cependant, la langue
k
e-CNF est un sur-ensemble du langage
k
g-te rm-DNF
puisque tout
k
La formule -term-DNF peut être réécrite comme
k
-un CNF
formule en distribuant ET sur OU.
Étant donné que l'apprentissage PAC ne nécessite qu'une
réponse approximative avec
forte probabilité
, un algorithme
probabiliste qui s'arrête et renvoie uniquement une hypothèse
cohérente en temps polynomial avec une probabilité élevée est
suffisant.
Donc,
C
=
k
-le terme DNF peut être appris en utilisant
H
ng=
k
-CNF comme le
espace d'hypothèses, mais il est intraitable de quitter rnctohncept sous la forme
d'un
k
-terme formule DNF (également th
k
L'algorithme e-CNF pourrait apprendre une
approximation proche dans
k
-CNF qui n'est pas réellement exprimable
k
je-intermède
(abandonné).
Cependant, il est généralement admis que les problèmes NP-
complets ne peuvent pas être résolus même avec une
probabilité élevée par un algorithme probabiliste en temps
polynomial, c'est-à-dire RP.PN.
Peut obtenir une diminution exponentielle de la complexité de calcul avec seulement une
augmentation polynomiale de la complexité de l'échantillon.
Données pour k-CNF
k
-CNF
Approximation Par conséquent, compte tenu de cette hypothèse, les classes
k
terme
semblable à DNF et
k
-Les clauses CNF ne sont pas apprenables par PAC
sous cette forme.
k
-terme DNF Apprenant
concept
Le double résultat est valable pour l'apprentissage
k
clause g CNF utilisant
k
g-DNF
comme espace d'hypothèses.
23 24
4
Espaces d'hypothèses infinis Des cas bouleversants
L’analyse précédente a été limitée aux espaces
d’hypothèses finis. On dit qu'un espace d'hypothèses brise un ensemble d'instances
ssi pour chaque partition des instances en positives et négatives, il
existe une hypothèse qui produit cette partition.
Certains espaces d’hypothèses infinis (tels que ceux incluant des
seuils ou des paramètres à valeurs réelles) sont plus expressifs
que d’autres.
Par exemple, considérons deux instances décrites à l’aide d’une seule
caractéristique à valeur réelle divisée par des intervalles.
Comparer une règle autorisant un seuil sur un continuum caractéristique
(longueur<3cm) contre un autorisant deux seuils (1cm< (gtlehn<3cm). xet + –
_
x
et
x, y
x, y
et
x
Besoin d’une certaine mesure de l’expressivité des espaces
d’hypothèses infinis.
Le
Vapnik-Tchervonenkis
(
VC
)
dimension
fournit justement
une telle mesure, notée V
H
C).(
Analogue à ln
H
| |, il existe des limites pour la complexité de
l'échantillon en utilisant VC
H
( ).
25 26
Instances fracassantes (suite) Dimension VC
Mais trois instances ne peuvent pas être brisées par un seul intervalle. Un espace d'hypothèse impartial brise l'instance entière. un c.a.
xet j+ – Plus le sous-ensemble est grand
X
de ce qui peut être brisé, plus
plus l'hypothèse est expressive, plus elle est biaisée.
_x, y, z
y, z
x, z
j
x
et
x, y
x, y, z
y, z
j
x, z
La dimension Vapnik-Chervonenkis, V
H
C)(. de l'espace
d'hypothèses
H
défini sur l'instance spa
X
c'est la taille du plus grand
sous-ensemble fini de
X
brisé par
H
. Si des sous-ensembles finis
arbitrairement grands o
X
f peut être brisé alors V
H
C)(=
x
x, y
et
S'il existe au moins un sous-ensemble
X
taille de t ooff
d
ça peut être
puis brisé VC
H
()
d
. Si aucun sous-ensemble de taille
d
e peut être
brisé, puis VC
H
() <
d.
Je ne peux pas faire
Puisqu'il y a
m
2partitions de
m
cas, afin de
H
r pour briser
les instances
H
: ||2
m
.
Pour un seul intervalle sur la ligne réelle, tous les ensembles de 2 nincsetsa peuvent
être brisés, mais aucun ensemble de 3 instances ne le peut, donc
H
)V=C(2.
Depuis
H
| |2
m
, pour briser m instances, V
H
C)(enregistrer2|
H
|
27 28
Exemple de dimension VC Exemple de dimension VC (suite)
Considérons des rectangles parallèles à l'axe dans le plan réel, c'est-à-
dire des conjonctions d'intervalles sur deux entités à valeurs réelles.
Certaines instances 4 peuvent être brisées.
Aucune des cinq instances ne peut être brisée car il ne peut y avoir
au plus que 4 points extrêmes distincts (min et max sur chacune
des 2 dimensions) et ces 4 ne peuvent être inclus sans inclure
d'éventuelsème5 points.
Il y a quatre exemples qui ne peuvent pas être brisés : Par conséquent, VC
H
( ) = 4
Généralise aux hyper-rectangles axes-parallèles (conjonctions
d'intervalles dans
n
dimensions) : VC
H
( )=2
n
.
29 30
5
1 / 7 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !