Master 2007
1
Introduction à la fouille de
données en BioInformatique
Master EID 2008
Cours MASTER EID-P13 2008
Jean-Daniel Zucker
DR à l’IRD UR GEODES
(Modèlisation Mathématiques Et Informatiques des Systèmes Complexes)
UMR U872 Eq. 7 INSERM
1lundi 24 mars 2008
Master 2007
2
Plan
I. A) Généralités et rappels
B) petite intro à la bioinformatique
II. Une source de données: les BioPuces
III. La fouille de données BioPuces
Clustering
Classification/Prediction
Feature Selection
IV. Conclusion http://videolectures.net
2lundi 24 mars 2008
Master 2007
3
Agents autonomes
150 mile off-road robot race
across the Mojave desert
Natural and manmade hazards
No driver, no remote control
No dynamic passing
Fastest vehicle wins the race
(and 2 million dollar prize)
http://www.darpa.mil/grandchallenge/rules.asp
3lundi 24 mars 2008
Master 2007
4
Grand DARPA challenge (2005)
Tâche: apprendre le programme de conduite en temps réel
4lundi 24 mars 2008
Master 2007
5
Grand DARPA challenge (2005)
Top three finishers to receive $2 million, $1 million and $500,000 prizes. (12/8/06)
5lundi 24 mars 2008
11/12/06
des données (2/2)
6
Le risque de métastase est x15 pour les profils «!mauvais pronostic!» p=0.003
Etude d’une cohorte de 295 cancers du sein
avec/sans métastase ganglionnaire (Vijver et
al., NEJM, décembre 2002)
70 gènes: «!prognosis classifier genes!»
Années
6lundi 24 mars 2008
Master 2007
Types d’apprentissages
7
1. Apprentissage
supervisé
prédiction/régression/classification
apprentissage de paramètres
2. Apprentissage non-
supervisé
regroupement (clustering)
3. Apprentissage
par renforcement
planification dans monde inconnu
supervision par l’environnement
7lundi 24 mars 2008
Master 2007
8
Learning – Problem Formulation I
R˝
Ounion Geodes . JD Zucker: An Introduction to Boosting. Part I (Basic Issues), Page 4
· · ·
natural plastic natural plastic
+1 -1 +1 -1
?
Le ‘Monde’:
Donnees: {(xn, yn)}N
n=1,xnRd, yn1}
Fonction cible inconnue: y=f(x)(or yP(y|x))
Distribution inconnue: xp(x)
But: Etant donne n nouvel x, predire y
Probleme: P(x, y)est inconnu!
8lundi 24 mars 2008
Master 2007
9
Formulation du problème d’apprentissage supervisé
Si
f
est une fonction continue
Régression (ex: durée de vie d!un malade)
Estimation de densité
Si
f
est une fonction discrète
Classification (ex: niveau de gravité)
Si
f
est une fonction binaire (booléenne)
Apprentissage de concept (ex: rechute oui/non plastic: oui/non)
9lundi 24 mars 2008
Master 2007
Formulation du problème d’apprentissage supervisé
10
Learning – Problem Formulation II
R˝
Ounion Geodes . JD Zucker: An Introduction to Boosting. Part I (Basic Issues), Page 5
Le ‘Modèle’
Espace des Hypotheses: H=!h|h:Rd1}"
Fonction de perte: l(y, h(x)) (par ex. I[y"=h(x)])
But: Minimiser la vraie (attendue) perte – “erreur
en generalisation”
h= argmin
hH
L(h)with L(h) := EX×Yl(Y, h(X))
Probleme: on a qu’un echantillon de donnees
disponible, P(x, y)inconnue!
Solution: Trouver un minimiseur empirique
ˆ
hN= argmin
hH
1
N
N
#
n=1
l(yn, h(xn))
Comment construire efficacement des hypotheses
complexes de faible erreur en generalisation ?
10lundi 24 mars 2008
1 / 40 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !