Apprentissage statistique – Stratégie du
Data-Mining
Hélène Milhem
Institut de Mathématiques de Toulouse, INSA Toulouse, France
IUP SID, 2011-2012
H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 1 / 14
Apprentissage Statistique - Objectifs
Phénomène physique, biologique, financier, etc trop complexe
pour être décrit de manière déterministe.=Utilisation de
techniques statistiques d’apprentissage.
Exemple : Reconnaissance de la parole, d’images, prédiction de
données climiques, du comportement d’un client...
Techniques statistiques basées sur des modèles faisant intervenir
Ides variables explicatives
Ides variables à expliquer
Iune composante de bruit statistique
But du statisticien : estimer au mieux des paramètres du modèle
pour obtenir la meilleure fiabilité de prédiction
Mots clefs : Machine Learning, Reconnaissance de formes,
Intelligence Artificielle
H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 2 / 14
Problématique
Apprentissage Supervisé
IVariable Yà expliquer, décrite par nindividus dont on connaît p
variables explicatives synthétisées dans X.
IEnsemble d’apprentissage DTrain ={(X1,Y1),· · · ,(Xn,Yn)}.
IConnaissant DTrain, on cherche φfonction des pprédicteurs telle
que la variable Ys’explique au mieux en fonction des p
prédicteurs : Y=φ(X) + .
IL’apprentissage est SUPERVISE puique conditionnée par la
donnée d’étiquettes (labels, valeurs...) pour chacun des n
individus : les Yi.
IExemples classiques : Modèle de régression simple, multiple, arbre
binaire de classifications, réseaux de neurones, support vector
machine, kplus proche voisins...
Aprentissage Non-Supervisé
IPas de variable Yà expliquer, mais toujours nindividus décrits par
pvariables chacun.
IObjectif : recherche d’une taxinomie (caractéristiques communes)
des observations.
H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 3 / 14
Modélisation versus Apprentissage
Modélisation
ILa notion de modèle est centrale avec une finalité explicative.
IBut : approcher la réalité, le vrai modèle, supposé existé,
éventuellement basé sur une théorie physique, économique...
sous-jacente.
ILe choix du modèle est alors guidé par des critères d’ajustement et
les décisions de validité, de présence d’effets, basées sur des tests
reposant eux-mêmes sur des hypothèses probabilistes.
IL’interprétation du rôle de chaque variable explicative est
prépondérante dans la démarche.
Aprentissage
IBut : prédiction. Le meilleur modèle n’est pas nécessairement celui
qui ajusterait le mieux le vrai modèle.
IChoix basés sur des critères de qualité de prévision visant à la
recherche de modèles parcimonieux, i.e. de complexité (nombre de
paramètres ou flexibilité limitée) dont l’interprétabilité passe au
second plan.
H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 4 / 14
Discrimination versus Régression
Différents types de variables statistiques considérées
Iqualitatives à valeurs dans un ensemble de cardinal fini,
Iquantitatives à valeurs réelles.
Certaines méthodes d’apprentissage ou de modélisation
s’adaptent à tout type de variables explicatives tandis que d’autres
sont spécialisées.
ISi Yà expliquer est qualitative, on parle de discrimination,
classification ou reconnaissance de forme,
Isi Yest quantitative, on parle de régression.
H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 5 / 14
1 / 14 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !