Introduction à la fouille de données en BioInformatique Cours

Téléchargement

Master 2007

Introduction à la fouille de

données en BioInformatique

Master EID 2008

Cours MASTER EID-P13 2008

Jean-Daniel Zucker

DR à l’IRD UR GEODES

(Modèlisation Mathématiques Et Informatiques des Systèmes Complexes)

UMR U872 Eq. 7 INSERM

1lundi 24 mars 2008

Master 2007

Plan

I. A) Généralités et rappels

B) petite intro à la bioinformatique

II. Une source de données: les BioPuces

III. La fouille de données BioPuces

•Clustering

•Classification/Prediction

•Feature Selection

IV. Conclusion http://videolectures.net

2lundi 24 mars 2008

Master 2007

Agents autonomes

150 mile off-road robot race

across the Mojave desert

Natural and manmade hazards

No driver, no remote control

No dynamic passing

Fastest vehicle wins the race

(and 2 million dollar prize)

http://www.darpa.mil/grandchallenge/rules.asp

3lundi 24 mars 2008

Master 2007

Grand DARPA challenge (2005)

•Tâche: apprendre le programme de conduite en temps réel

4lundi 24 mars 2008

Master 2007

Grand DARPA challenge (2005)

Top three finishers to receive $2 million, $1 million and $500,000 prizes. (12/8/06)

5lundi 24 mars 2008

11/12/06

des données (2/2)

Le risque de métastase est x15 pour les proﬁls «!mauvais pronostic!» p=0.003

Etude d’une cohorte de 295 cancers du sein

avec/sans métastase ganglionnaire (Vijver et

al., NEJM, décembre 2002)

70 gènes: «!prognosis classiﬁer genes!»

Années

6lundi 24 mars 2008

Master 2007

Types d’apprentissages

1. Apprentissage

supervisé

prédiction/régression/classiﬁcation

apprentissage de paramètres

2. Apprentissage non-

supervisé

regroupement (clustering)

3. Apprentissage

par renforcement

planiﬁcation dans monde inconnu

supervision par l’environnement

7lundi 24 mars 2008

Master 2007

Formulation du problème d’apprentissage supervisé

Learning – Problem Formulation I

R˝

Ounion Geodes . JD Zucker: An Introduction to Boosting. Part I (Basic Issues), Page 4

· · ·

natural plastic natural plastic

+1 -1 +1 -1

Le ‘Monde’:

Donnees: {(xn, yn)}N

n=1,xn∈Rd, yn∈{±1}

Fonction cible inconnue: y=f(x)(or y∼P(y|x))

Distribution inconnue: x∼p(x)

But: Etant donne n nouvel x, predire y

Probleme: P(x, y)est inconnu!

8lundi 24 mars 2008

Master 2007

Formulation du problème d’apprentissage supervisé

•Si

est une fonction continue

– Régression (ex: durée de vie d!un malade)

– Estimation de densité

•Si

est une fonction discrète

– Classiﬁcation (ex: niveau de gravité)

•Si

est une fonction binaire (booléenne)

–Apprentissage de concept (ex: rechute oui/non plastic: oui/non)

9lundi 24 mars 2008

Master 2007

Formulation du problème d’apprentissage supervisé

Learning – Problem Formulation II

R˝

Ounion Geodes . JD Zucker: An Introduction to Boosting. Part I (Basic Issues), Page 5

Le ‘Modèle’

Espace des Hypotheses: H=!h|h:Rd→{±1}"

Fonction de perte: l(y, h(x)) (par ex. I[y"=h(x)])

But: Minimiser la vraie (attendue) perte – “erreur

en generalisation”

h∗= argmin

h∈H

L(h)with L(h) := EX×Yl(Y, h(X))

Probleme: on a qu’un echantillon de donnees

disponible, P(x, y)inconnue!

Solution: Trouver un minimiseur empirique

hN= argmin

h∈H

n=1

l(yn, h(xn))

Comment construire efﬁcacement des hypotheses

complexes de faible erreur en generalisation ?

10lundi 24 mars 2008

1 / 40 100%

Documents connexes

Abrégé de biochimie appliquée

Puces à ADN - Ovidiu Radulescu

Résumé

Trichostatine A - Encyclopédie sur le développement des jeunes

Poster Équipe Biopuces Bionanotechnologies

Le Téléthon est national. Ce mot est composé de deux autres mots

Diagnostique génétique du cancer du sein

Lire la brève / full text

Lire l'article complet

Rapport de l`Académie de médecine « Maladies rares, le

Le noyau : le centre de commande de la cellule

Pôle : Cellules – Chromosomes – Gènes

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Introduction à la fouille de données en BioInformatique Cours

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Introduction à la fouille de données en BioInformatique Cours

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib