Cornuéjols Apprentissage et prétraitement 1 Sélection d’attributs Antoine Cornuéjols CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) [email protected] http://www.lri.fr/~antoine/ 16/01/06 Cours : plan 1- Pourquoi sélectionner les attributs 2- Définition du problème Cornuéjols Apprentissage et prétraitement 2 • Pertinence et sous-ensemble d’attributs pertinents 3- Méthodes de sélection • Trois familles d’approches • Mesures de pertinence • Détermination du seuil 4- Étude de cas 16/01/06 Pourquoi la sélection d’attributs Cornuéjols Apprentissage et prétraitement 3 • Facteurs sans influence ou peu influents • Facteurs redondants • Dimension des entrées telle que coût de l’apprentissage trop grand 16/01/06 Pourquoi la sélection d’attributs Cornuéjols Apprentissage et prétraitement 4 • Apprentissage moins coûteux • Faciliter l’apprentissage Meilleure performance en classification Meilleure compréhensibilité de l’hypothèse • Identifier les facteurs pertinents Génomique Vision 16/01/06 La sélection d’attributs Cornuéjols Apprentissage et prétraitement 5 • Idéalement Identifier le sous-ensemble d’attributs de taille minimale nécessaire et suffisant pour définir le concept cible • Classiquement Sélectionner un sous-ensemble d’attributs de taille n < d, tel qu’un critère soit optimisé par rapport à tous les sous-ensembles de taille n. • Amélioration de l’erreur en classification Apprentissage supervisé • Rester proche de la distribution originale des classes Apprentissage non supervisé 16/01/06 Pertinence d’un attribut Cornuéjols Apprentissage et prétraitement 6 • Non pertinent ou redondant Si sa présence n’améliore pas – L’erreur en classification (supervisé) – La proximité à la distribution originale des classes (non supervisé) 16/01/06 Définitions de la « pertinence » Cornuéjols Apprentissage et prétraitement 7 [Blum & Langley, 97], [Bell & Wang, 00] • Pas de définition unique car dépend du domaine Par rapport à la cible – di est pertinent si une paire d’exemples ne différant qu’en di et de classes différentes Idem par rapport à la distribution (ou à l’échantillon) – Idem, sauf que la paire d’exemples peut être tirée avec une probabilité non nulle (ou appartient à l’échantillon) Faible pertinence – Si pertinent quand on retire un sous-ensemble des attributs … Pertinent si permet une meilleure classification … si permet de comprendre mieux 16/01/06 Cornuéjols Le problème de la sélection d’attributs Apprentissage et prétraitement 8 Recherche parmi tous les sous-ensembles d’attributs • Pour une taille n 2n sous-ensembles candidats Généralement prohibitif 16/01/06 Cornuéjols Le problème de la sélection d’attributs Apprentissage et prétraitement 9 • Problème NP-difficile • Mais a priori plus simple que celui de la classification (apprentissage de la relation de dépendance) • E.g. Supposons 3 attributs binaires et fonctions booléennes a1 a2 a3 XOR 0 0 0 - 0 0 1 + 0 1 0 + 0 1 1 - 1 0 0 - 1 0 1 + 1 1 0 + 1 1 1 - fonctions possibles Mais seulement : 10 tris possibles sur les attributs (e.g. (a1,a2,a3)) Et 4 seuils 16/01/06 Cornuéjols Apprentissage et prétraitement 10 Le problème de la sélection d’attributs (2) • Pourtant il manque une théorie fournissant des garanties sur la qualité des classements (analogue à la théorie statistique de l’apprentissage) Pas d’équivalent du risque empirique Tâche non supervisée Méthodes (essentiellement) de nature heuristique 16/01/06 Procédure générale Cornuéjols Apprentissage et prétraitement 11 [Dash & Liu, 1997] 16/01/06 Procédure générale Cornuéjols Apprentissage et prétraitement 12 • Génération (exploration d’un espace de recherche) Initialisation : un attribut / tous / un sous-ensemble Opérateurs de recherche : ajout ou retrait attribut par attribut • Évaluation Mesure de la valeur du sous-ensemble d’attributs • Critère d’arrêt # d’attributs pré-défini atteint ou # d’itérations atteint Amélioration insuffisante Méthode de témoins • Validation E.g. par validation croisée 16/01/06 Critères d’arrêt Cornuéjols Apprentissage et prétraitement 13 • Evaluation passe en-dessous d’un certain seuil • Méthode par « témoin » Inclure des attributs aléatoires Ne pas retenir les attributs dont l’évaluation est en-dessous 16/01/06 Cornuéjols Les approches 1. Approche intégrée (« embedded ») 2. « Wrapper methods » (approche symbiose) Apprentissage et prétraitement [Blum & Langley, 97] [Guyon & Elisseeff, 03] Utilisent la performance en aval pour sélectionner les attributs Deux stratégies – Ascendante (« forward selection ») 14 Données • Par ajouts successifs d’attributs – Descendante (« backward selection ») • Par retraits successifs d’attributs 3. « Filter methods » (approche par filtre) Indépendantes des traitements aval Données Valid. croisée Apprentissage Filtrage Apprentissage Apprentissage 16/01/06 Approche « filter » Cornuéjols Apprentissage et prétraitement 15 16/01/06 Approche « wrapper » Cornuéjols Apprentissage et prétraitement 16 16/01/06 Hypothèse de linéarité Cornuéjols Apprentissage et prétraitement 17 • Chaque attribut est évalué indépendamment des autres 16/01/06 Mesures de pertinence Cornuéjols Apprentissage et prétraitement 18 Exemples • Mesures d’information • Mesures de distance • Mesures de dépendance • Critère de cohérence • Mesures de précision 16/01/06 Mesure d’information Cornuéjols Apprentissage et prétraitement 19 • Entropie d’une variable X • Entropie de X après observation de Y • Gain d’information 16/01/06 Critère de cohérence Cornuéjols Apprentissage et prétraitement 20 • Chercher un sous-ensemble minimal d’attributs maintenant la cohérence • Une incohérence survient lorsque ≥ 2 exemples ont la même description mais sont de classes différentes • Remarque : Valide seulement pour des attributs à domaine fini 16/01/06 Mesures de précision Cornuéjols Apprentissage et prétraitement 21 • Utilisation d’un système de classification pour mesurer la précision 16/01/06 Cornuéjols Critères de performance Apprentissage et prétraitement 22 • Hypothèse de distribution paramétrique N (m,s) Comparaison à hypothèse nulle locale : ANOVA Idem (mais différent) SAM : • Méthodes non paramétriques Critère heuristique : RELIEF 16/01/06 Utilisation d’ANOVA Cornuéjols Apprentissage et prétraitement 23 • Deux classes (Irradiée / Non Irradiée) • N(m1,s) et N (m2,s) • Comparaison Variance intra-classe Variance inter-classes • Hypothèse nulle H0 : m1 = m2 • Rejet si Vint er Vint ra k 1 n k significativement trop grand par rapport aux quantiles de la foi F (k-1,n-k) 16/01/06 SAM Cornuéjols Apprentissage et prétraitement 24 (Significance Analysis of Microarrays) • Pour chaque gène : x I (i) x NI (i) d(i) s(i) s0 déviation standard Constante > 0 • Gènes potentiellement significatifs : gènes dont le score d(g) est supérieur au score moyen du gène obtenu après permutations des classes, de plus d’un certain seuil D • Calcul du nombre de gènes faussement significatifs : nombre moyen de gènes faussement significatifs pour chaque permutation • Taux de fausse découverte (FDR) 16/01/06 RELIEF (1) Cornuéjols Apprentissage et prétraitement 25 • [Kira & Rendell,92], [Kononenko,94] • Les attributs les plus pertinents sont ceux qui varient plus lorsque l’exemple (lame) considéré change de classe que lorsqu’il ne change pas Complexité faible Grande résistance au bruit 16/01/06 Cornuéjols RELIEF (2) Apprentissage et prétraitement 26 Gène_2 L H M L1 M1 H1 Gène_1 16/01/06 Cornuéjols RELIEF (3) Apprentissage et prétraitement 27 Une lame L est vue comme un point dans un espace à p = 6135 dimensions On cherche ses k plus proches voisins dans la même classe et on note H (nearest Hit) leur barycentre. On calcule ses k plus proches voisins dans l’autre classe et on note M (nearest Miss) leur barycentre. 1 m poids ( gène) m L 1 où exp r gène ( L) exp rgène ( M ) exp rgène ( L) exp rgène ( H ) exp rgène(x) est la projection selon gène du point x, et m est le nombre total de lames. Le poids calculé pour chaque gène gène est ainsi une approximation de la différence de deux probabilités comme suit : Poids(gène) = P (gène a une valeur différente / k plus proches voisins dans une classe différente) - P (gène a une valeur différente / k plus proches voisins dans la même classe) Algorithme polynomial : Q(pm2) Rôle de k : prise en compte du bruit 16/01/06 Comparaison Cornuéjols Apprentissage et prétraitement 28 • « Filter methods » Hypothèse de linéarité Peu coûteuses • « Wrapper methods » Coûteuses Plus précises ? Pas bonnes si m << d Biaisées ? 16/01/06 Etude de cas : les faibles radiations Cornuéjols Apprentissage et prétraitement 29 Danger indiscutable dans certains cas. En particulier pour les fortes doses d’irradiation. Quel impact des faibles doses ? Biologiquement aucun détecté Y a-t-il des effets au niveau des gènes ? 16/01/06 Protocole expérimental Cornuéjols Apprentissage et prétraitement 30 S. Cerevisiae en croissance exponentielle (séquencée complètement et eucaryote avec peu de gènes). Six cultures (Irradiées I) exposées pendant 20 heures entre 15 et 30 mGy/h Douze cultures non exposées (Non Irradiées NI) Mesure effectuées sur puce Corning où l’hybridation a été faite avec double marquage fluorescent (Cy3 pour les cADN contrôles et Cy5 pour les cADN étudiés). 16/01/06 Questions des biologistes Cornuéjols Apprentissage et prétraitement • L’irradiation à de faibles doses est-elle détectable ? • Nombre de gènes impliqués dans la réponse à une irradiation à faible dose ? • Groupes de gènes impliqués dans la réponse à l’irradiation 31 et de quelle manière ? • Est-il possible de deviner le traitement subi par une levure en regardant l’expression de son génome ? • Peut-on généraliser cette approche à d’autres types de traitements (pollutions, cancer, ...) 16/01/06 « Précarité » des données • Cornuéjols Apprentissage et prétraitement 32 Extrêmement peu de données / dimension (12 - (non irradiées) & 6 + (irradiées) vs. 6135 gènes) • Données imparfaites Bruit expérimental – Irradiation – Puces à ADN • Prétraitement et normalisation Pas idéales : Déséquilibre des classes + et - Absence d’indépendance conditionnelle entre les gènes 16/01/06 Sélection des attributs Cornuéjols Apprentissage et prétraitement 33 • Y a-t-il vraiment de l’information dans les données ? • Quels gènes retenir ? • Avec quelle confiance ? 16/01/06 Hypothèse nulle globale Cornuéjols Apprentissage et prétraitement 34 Nombre de gènes dont le poids dépasse la valeur repérée en abscisse rouge : Avec les classes réelles ; bleu : Courbe moyenne obtenue avec des classes aléatoires 16/01/06 Hypothèse nulle globale Cornuéjols Apprentissage et prétraitement 35 Nombre de gènes dont le poids dépasse la valeur repérée en abscisse rouge : Avec les classes réelles ; bleu : Courbe moyenne obtenue avec des classes aléatoires 16/01/06 Cornuéjols Précision ou rappel : choix d’un seuil Apprentissage et prétraitement 36 Il faut choisir entre : Une liste contenant presque tous les gènes impliqués mais comportant des fauxpositifs Une liste de gènes impliquées de manière quasi-certaine dans la réponse à l’Irradiation (quitte à ne pas avoir tous les gènes impliqués) Problème du seuil 16/01/06 Combinaison de méthodes ? Cornuéjols Apprentissage et prétraitement 37 • Peut-on faire mieux avec deux méthodes ? Est-ce mieux de prendre l’intersection de leurs sélections ? Doit-on avoir plus de confiance dans la valeur du résultat ainsi obtenu ? 16/01/06 Cornuéjols Intersections (1) Apprentissage et prétraitement 38 Pour les 500 meilleurs gènes de chaque technique (poids 0.2) : ANOVA 409 RELIEF 278 ANOVA SAM RELIEF Pour les 35 meilleurs (poids 0.5) : 0 SAM 8 0 ANOVA 16/01/06 Intersections (2) Cornuéjols Apprentissage et prétraitement 39 Est-ce que ces intersections sont significatives ? • Problème : Étant données 2 méthodes sélectionnant au hasard chacune n gènes parmi N gènes, quelle est la probabilité que ces deux paquets de n gènes aient une intersection de cardinal supérieur ou égal à k ? = = > loi hypergéométrique H(n, N-n, k) avec N = 6157 : n = 500 : P (taille intersection 257 ) = 10-169 n = 35 : P (taille intersection 8 ) = 10-12 Le biologiste est satisfait ! 16/01/06 Répartition des meilleurs gènes Cornuéjols Apprentissage et prétraitement 40 function of 91 induced genes/171 number of ORFs % in this list % total ORFS (6158) sur-rep unknown 38 41,8 50,4 0,8 oxidative stress response 4 4,4 0,3 14,3 oxidative phosphorylation 9 9,9 0,3 30,5 transport 4 4,4 2,2 2,0 gluconeogenesis 1 1,1 0,1 16,9 protein processing & synthesis 3 3,3 2,0 1,6 ATP synthesis 7 7,7 0,4 20,6 glucose repression 1 1,1 0,2 4,8 respiration 2 2,2 0,1 22,0 function of 80 repressed genes/171 number of ORFs % in this list % total ORFS sur-rep unknown 45 56,3 50,4 1,1 stress response (putative) 1 1,3 0,2 7,0 glycerol metabolism 2 2,5 0,1 30,8 protein processing & synthesis 3 3,8 2,0 1,9 secretion 2 2,5 2,0 1,3 transport 4 5,0 2,2 2,3 glycolysis 2 2,5 1,0 2,5 16/01/06 Cornuéjols Interprétation biologique Cytochrome bc1 Cyt1 QCR7 QCR10 Cytochrome c oxidase COX5A COX6 COX4 COX 13 COX12 COX7 COX8 COX20 7 10 IV VIb VIIb VaVb VbVa gk Tim11 j VIIIc cox20 41 ATP synthase ATP3 ATP5 ATP16 ATP15 ATP7 ATP17 ATP18 ATP19 ATP20 TIM11 Ia V Cytc1 Apprentissage et prétraitement b fd b 16/01/06 Problèmes Cornuéjols Apprentissage et prétraitement 42 • Attributs corrélés • Quasi absence de fondements théoriques • Tri plutôt que sélection Boosting de tris ? Nouveau domaine de recherche 16/01/06 Bibliographie Cornuéjols Apprentissage et prétraitement 43 • Blum, A. and Langley, P. (1997) Selection of relevant features and examples in machine learning. Artificial Intelligence journal (97). 245-271. • Dash, M. and Liu, H. (1997) Feature selection for classification. Intelligent Data Analysis, 1. 131-156. • Guyon, I. and Elisseeff, A. (2003) An introduction to variable and feature selection. Journal of Machine Learning Research, 3. 1157-1182. 16/01/06