Tr-selection-attributs

publicité
Cornuéjols
Apprentissage et prétraitement
1
Sélection d’attributs
Antoine Cornuéjols
CNAM-IIE
et L.R.I., Université de Paris-Sud, Orsay (France)
[email protected]
http://www.lri.fr/~antoine/
16/01/06
Cours : plan
1-
Pourquoi sélectionner les attributs
2-
Définition du problème
Cornuéjols
Apprentissage et prétraitement
2
• Pertinence et sous-ensemble d’attributs pertinents
3-
Méthodes de sélection
• Trois familles d’approches
• Mesures de pertinence
• Détermination du seuil
4-
Étude de cas
16/01/06
Pourquoi la sélection d’attributs
Cornuéjols
Apprentissage et prétraitement
3
• Facteurs sans influence ou peu influents
• Facteurs redondants
• Dimension des entrées telle que coût de
l’apprentissage trop grand
16/01/06
Pourquoi la sélection d’attributs
Cornuéjols
Apprentissage et prétraitement
4
• Apprentissage moins coûteux
• Faciliter l’apprentissage

Meilleure performance en classification

Meilleure compréhensibilité de l’hypothèse
• Identifier les facteurs pertinents

Génomique

Vision
16/01/06
La sélection d’attributs
Cornuéjols
Apprentissage et prétraitement
5
• Idéalement

Identifier le sous-ensemble d’attributs de taille minimale nécessaire et
suffisant pour définir le concept cible
• Classiquement

Sélectionner un sous-ensemble d’attributs de taille n < d, tel qu’un critère soit
optimisé par rapport à tous les sous-ensembles de taille n.
• Amélioration de l’erreur en classification

Apprentissage supervisé
• Rester proche de la distribution originale des classes

Apprentissage non supervisé
16/01/06
Pertinence d’un attribut
Cornuéjols
Apprentissage et prétraitement
6
• Non pertinent ou redondant

Si sa présence n’améliore pas
– L’erreur en classification (supervisé)
– La proximité à la distribution originale des classes (non supervisé)
16/01/06
Définitions de la « pertinence »
Cornuéjols
Apprentissage et prétraitement
7
[Blum & Langley, 97], [Bell & Wang, 00]
• Pas de définition unique car dépend du domaine

Par rapport à la cible
– di est pertinent si  une paire d’exemples ne différant qu’en di et de classes différentes

Idem par rapport à la distribution (ou à l’échantillon)
– Idem, sauf que la paire d’exemples peut être tirée avec une probabilité non nulle (ou
appartient à l’échantillon)

Faible pertinence
– Si pertinent quand on retire un sous-ensemble des attributs

…

Pertinent si permet une meilleure classification

… si permet de comprendre mieux
16/01/06
Cornuéjols
Le problème de la sélection d’attributs
Apprentissage et prétraitement
8
Recherche parmi tous les sous-ensembles d’attributs
• Pour une taille n

2n sous-ensembles candidats

Généralement prohibitif
16/01/06
Cornuéjols
Le problème de la sélection d’attributs
Apprentissage et prétraitement
9
• Problème NP-difficile
• Mais a priori plus simple que celui de la classification (apprentissage de
la relation de dépendance)
• E.g. Supposons 3 attributs binaires et fonctions booléennes
a1
a2
a3
XOR
0
0
0
-
0
0
1
+
0
1
0
+
0
1
1
-
1
0
0
-
1
0
1
+
1
1
0
+
1
1
1
-
fonctions possibles
Mais seulement : 10 tris
possibles sur les attributs
(e.g. (a1,a2,a3))
Et 4 seuils
16/01/06
Cornuéjols
Apprentissage et prétraitement
10
Le problème de la sélection d’attributs (2)
• Pourtant il manque une théorie fournissant des garanties
sur la qualité des classements
(analogue à la théorie statistique de l’apprentissage)

Pas d’équivalent du risque empirique

Tâche non supervisée
 Méthodes (essentiellement) de nature heuristique
16/01/06
Procédure générale
Cornuéjols
Apprentissage et prétraitement
11
[Dash & Liu, 1997]
16/01/06
Procédure générale
Cornuéjols
Apprentissage et prétraitement
12
• Génération (exploration d’un espace de recherche)

Initialisation : un attribut / tous / un sous-ensemble

Opérateurs de recherche : ajout ou retrait attribut par attribut
• Évaluation

Mesure de la valeur du sous-ensemble d’attributs
• Critère d’arrêt

# d’attributs pré-défini atteint ou # d’itérations atteint

Amélioration insuffisante

Méthode de témoins
• Validation

E.g. par validation croisée
16/01/06
Critères d’arrêt
Cornuéjols
Apprentissage et prétraitement
13
• Evaluation passe en-dessous d’un certain seuil
• Méthode par « témoin »

Inclure des attributs aléatoires

Ne pas retenir les attributs dont l’évaluation est en-dessous
16/01/06
Cornuéjols
Les approches
1.
Approche intégrée (« embedded »)
2. « Wrapper methods » (approche symbiose)
Apprentissage et prétraitement
[Blum & Langley, 97]
[Guyon & Elisseeff, 03]

Utilisent la performance en aval pour sélectionner les attributs

Deux stratégies
–
Ascendante
(« forward selection »)
14
Données
• Par ajouts successifs d’attributs
–
Descendante (« backward selection »)
• Par retraits successifs d’attributs
3. « Filter methods » (approche par filtre)

Indépendantes des traitements aval
Données
Valid. croisée
Apprentissage
Filtrage
Apprentissage
Apprentissage
16/01/06
Approche « filter »
Cornuéjols
Apprentissage et prétraitement
15
16/01/06
Approche « wrapper »
Cornuéjols
Apprentissage et prétraitement
16
16/01/06
Hypothèse de linéarité
Cornuéjols
Apprentissage et prétraitement
17
• Chaque attribut est évalué indépendamment des autres
16/01/06
Mesures de pertinence
Cornuéjols
Apprentissage et prétraitement
18
Exemples
• Mesures d’information
• Mesures de distance
• Mesures de dépendance
• Critère de cohérence
• Mesures de précision
16/01/06
Mesure d’information
Cornuéjols
Apprentissage et prétraitement
19
• Entropie d’une variable X
• Entropie de X après observation de Y
• Gain d’information
16/01/06
Critère de cohérence
Cornuéjols
Apprentissage et prétraitement
20
• Chercher un sous-ensemble minimal d’attributs maintenant la
cohérence
• Une incohérence survient lorsque ≥ 2 exemples ont la même
description mais sont de classes différentes
• Remarque :

Valide seulement pour des attributs à domaine fini
16/01/06
Mesures de précision
Cornuéjols
Apprentissage et prétraitement
21
• Utilisation d’un système de classification pour mesurer la précision
16/01/06
Cornuéjols
Critères de performance
Apprentissage et prétraitement
22
• Hypothèse de distribution paramétrique N (m,s)

Comparaison à hypothèse nulle locale :
ANOVA

Idem (mais différent)
SAM
:
• Méthodes non paramétriques

Critère heuristique : RELIEF
16/01/06
Utilisation d’ANOVA
Cornuéjols
Apprentissage et prétraitement
23
• Deux classes (Irradiée / Non Irradiée)
• N(m1,s) et N (m2,s)
• Comparaison

Variance intra-classe

Variance inter-classes
• Hypothèse nulle H0 : m1 = m2
• Rejet si
Vint er
Vint ra
k 1
n k
significativement trop grand par rapport
aux quantiles de la foi F (k-1,n-k)
16/01/06
SAM
Cornuéjols
Apprentissage et prétraitement
24
(Significance Analysis of Microarrays)
• Pour chaque gène :
x I (i)  x NI (i)
d(i) 
s(i)  s0
déviation standard
Constante > 0
• Gènes potentiellement significatifs : gènes dont le score d(g) est
supérieur au score moyen du gène obtenu après permutations des
classes, de plus d’un certain seuil D
• Calcul du nombre de gènes faussement significatifs : nombre moyen de
gènes faussement significatifs pour chaque permutation
• Taux de fausse découverte (FDR)
16/01/06
RELIEF (1)
Cornuéjols
Apprentissage et prétraitement
25
• [Kira & Rendell,92], [Kononenko,94]
• Les attributs les plus pertinents sont ceux qui varient plus lorsque
l’exemple (lame) considéré change de classe que lorsqu’il ne change
pas

Complexité faible

Grande résistance au bruit
16/01/06
Cornuéjols
RELIEF (2)
Apprentissage et prétraitement
26
Gène_2
L
H
M
L1
M1
H1
Gène_1
16/01/06
Cornuéjols
RELIEF (3)
Apprentissage et prétraitement
27
 Une lame L est vue comme un point dans un espace à p = 6135 dimensions
 On cherche ses k plus proches voisins dans la même classe et on note H
(nearest Hit) leur barycentre.
 On calcule ses k plus proches voisins dans l’autre classe et on note M
(nearest Miss) leur barycentre.
1 m
poids ( gène)  
m L 1
où
 exp r
gène
 
( L)  exp rgène ( M )  exp rgène ( L)  exp rgène ( H )

exp rgène(x) est la projection selon gène du point x, et m est le nombre total de lames.
 Le poids calculé pour chaque gène gène est ainsi une approximation de la différence de deux
probabilités comme suit :
Poids(gène) = P (gène a une valeur différente / k plus proches voisins dans une classe différente)
- P (gène a une valeur différente / k plus proches voisins dans la même classe)
 Algorithme polynomial : Q(pm2)
 Rôle de k :
prise en compte du bruit
16/01/06
Comparaison
Cornuéjols
Apprentissage et prétraitement
28
• « Filter methods »

Hypothèse de linéarité
 Peu coûteuses
• « Wrapper methods »

Coûteuses

Plus précises ?

Pas bonnes si m << d

Biaisées ?
16/01/06
Etude de cas : les faibles radiations
Cornuéjols
Apprentissage et prétraitement
29
Danger indiscutable dans certains cas. En particulier pour les fortes doses
d’irradiation.
Quel impact des faibles doses ?
Biologiquement aucun détecté
Y a-t-il des effets au niveau des
gènes ?
16/01/06
Protocole expérimental
Cornuéjols
Apprentissage et prétraitement
30
S. Cerevisiae en croissance exponentielle (séquencée complètement et eucaryote avec peu de
gènes).
Six cultures (Irradiées I) exposées pendant 20 heures entre 15 et 30 mGy/h
Douze cultures non exposées (Non Irradiées NI)
Mesure effectuées sur puce Corning où l’hybridation a été faite avec double marquage
fluorescent (Cy3 pour les cADN contrôles et Cy5 pour les cADN étudiés).
16/01/06
Questions des biologistes
Cornuéjols
Apprentissage et prétraitement
•
L’irradiation à de faibles doses est-elle détectable ?
•
Nombre de gènes impliqués dans la réponse à une irradiation à faible dose ?
•
Groupes de gènes impliqués dans la réponse à l’irradiation
31
et de quelle manière ?
•
Est-il possible de deviner le traitement subi par une levure en regardant l’expression de
son génome ?
•
Peut-on généraliser cette approche à d’autres types de traitements (pollutions, cancer, ...)
16/01/06
« Précarité » des données
•
Cornuéjols
Apprentissage et prétraitement
32
Extrêmement peu de données / dimension
(12 - (non irradiées) & 6 + (irradiées) vs. 6135 gènes)
•
Données imparfaites

Bruit expérimental
– Irradiation
– Puces à ADN

•
Prétraitement et normalisation
Pas idéales :

Déséquilibre des classes + et -

Absence d’indépendance conditionnelle entre les gènes
16/01/06
Sélection des attributs
Cornuéjols
Apprentissage et prétraitement
33
• Y a-t-il vraiment de l’information dans les données ?
• Quels gènes retenir ?
• Avec quelle confiance ?
16/01/06
Hypothèse nulle globale
Cornuéjols
Apprentissage et prétraitement
34
Nombre de gènes dont le poids dépasse la valeur repérée en abscisse
rouge : Avec les classes réelles ;
bleu : Courbe moyenne obtenue avec des classes aléatoires
16/01/06
Hypothèse nulle globale
Cornuéjols
Apprentissage et prétraitement
35
Nombre de gènes dont le poids dépasse la valeur repérée en abscisse
rouge : Avec les classes réelles ;
bleu : Courbe moyenne obtenue avec des classes aléatoires
16/01/06
Cornuéjols
Précision ou rappel : choix d’un seuil
Apprentissage et prétraitement
36
Il faut choisir entre :
Une liste contenant presque tous les gènes impliqués mais comportant des fauxpositifs
Une liste de gènes impliquées de manière quasi-certaine dans la réponse à
l’Irradiation (quitte à ne pas avoir tous les gènes impliqués)
 Problème du seuil
16/01/06
Combinaison de méthodes ?
Cornuéjols
Apprentissage et prétraitement
37
• Peut-on faire mieux avec deux méthodes ?


Est-ce mieux de prendre l’intersection de leurs sélections ?
Doit-on avoir plus de confiance dans la valeur du résultat ainsi
obtenu ?
16/01/06
Cornuéjols
Intersections (1)
Apprentissage et prétraitement
38
Pour les 500 meilleurs gènes de chaque technique (poids 0.2) :
ANOVA
409
RELIEF 278 ANOVA
SAM
RELIEF
Pour les 35 meilleurs (poids 0.5) :
0
SAM
8
0
ANOVA
16/01/06
Intersections (2)
Cornuéjols
Apprentissage et prétraitement
39
Est-ce que ces intersections sont significatives ?
• Problème :
Étant données 2 méthodes sélectionnant au hasard chacune n gènes parmi N
gènes, quelle est la probabilité que ces deux paquets de n gènes aient une
intersection de cardinal supérieur ou égal à k ?
= = > loi hypergéométrique H(n, N-n, k)
avec N = 6157 :

n = 500 : P (taille intersection  257 ) = 10-169

n = 35 :
P (taille intersection  8 ) = 10-12

Le biologiste est satisfait !
16/01/06
Répartition des meilleurs gènes
Cornuéjols
Apprentissage et prétraitement
40
function of 91 induced genes/171 number of ORFs % in this list % total ORFS (6158)
sur-rep
unknown
38
41,8
50,4
0,8
oxidative stress response
4
4,4
0,3
14,3
oxidative phosphorylation
9
9,9
0,3
30,5
transport
4
4,4
2,2
2,0
gluconeogenesis
1
1,1
0,1
16,9
protein processing & synthesis
3
3,3
2,0
1,6
ATP synthesis
7
7,7
0,4
20,6
glucose repression
1
1,1
0,2
4,8
respiration
2
2,2
0,1
22,0
function of 80 repressed genes/171 number of ORFs % in this list % total ORFS sur-rep
unknown
45
56,3
50,4
1,1
stress response (putative)
1
1,3
0,2
7,0
glycerol metabolism
2
2,5
0,1
30,8
protein processing & synthesis
3
3,8
2,0
1,9
secretion
2
2,5
2,0
1,3
transport
4
5,0
2,2
2,3
glycolysis
2
2,5
1,0
2,5
16/01/06
Cornuéjols
Interprétation biologique
Cytochrome bc1
Cyt1
QCR7
QCR10
Cytochrome c oxidase
COX5A
COX6
COX4
COX 13
COX12
COX7
COX8
COX20
7
10
IV
VIb
VIIb
VaVb VbVa
gk
Tim11
j
VIIIc
cox20
41
ATP synthase
ATP3
ATP5
ATP16
ATP15
ATP7
ATP17
ATP18
ATP19
ATP20
TIM11
Ia
V
Cytc1
Apprentissage et prétraitement
b

fd


b

16/01/06
Problèmes
Cornuéjols
Apprentissage et prétraitement
42
• Attributs corrélés
• Quasi absence de fondements théoriques
• Tri plutôt que sélection

Boosting de tris ?

Nouveau domaine de recherche
16/01/06
Bibliographie
Cornuéjols
Apprentissage et prétraitement
43
• Blum, A. and Langley, P. (1997) Selection of relevant features and examples in
machine learning. Artificial Intelligence journal (97). 245-271.
• Dash, M. and Liu, H. (1997) Feature selection for classification. Intelligent Data
Analysis, 1. 131-156.
• Guyon, I. and Elisseeff, A. (2003) An introduction to variable and feature selection.
Journal of Machine Learning Research, 3. 1157-1182.
16/01/06
Téléchargement