Introduction 1. Données de puces à ADN Dans le cadre du cours de Méthode d’Optimisation et Apprentissage en Biologie, nous avons réalisé un projet portant sur l’influence des données manquantes dans l’analyse des puces ADN. Les données sur lesquelles nous avons travaillé proviennent d’un article paru dans Molecular Biology Cell en 2000 intitulé : « New components of a system for phosphate accumulation and polyphosphate metabolism in Saccharomyces cerevisiae revealed by genomic expression analysis » par Ogawa N.. Cet article décrit l’expression de 6013 gènes d’une souche de Saccharomyces cerevisiae (NBW7) disposée dans 8 (7 en effet..) conditions différentes (Annexe 1). Nous avons étudié le profil d’expression complet de 1/7 de ses gènes. Au cours de cette étude, nous avons généré des données manquantes et nous nous sommes intéressé à leur influence sur la classification des gènes après que ces valeurs aient été remplacées ou non par une méthode évaluant le niveau d’expression des K-plus proches voisins (KNN). Afin d’expliciter notre projet, nous présenterons tout d’abord l’effet du manque de données sur la classification hiérarchique des gènes puis nous étudierons la « qualité du remplacement » effectué par le KNN. 2. Génération et remplacement de données manquantes Les profils d’expression des gènes réalisés par puces ADN comportent souvent des données manquantes. Celles-ci sont principalement dues à des erreurs de manipulation caractérisées par des poussières ou des rayures de la « plaque » et par des erreurs de lecture de l’image par le scanner. La présence de données manquantes engendre des perturbations de la classification des gènes (figure 1) et entraine des mesappariements (HCLUST d’INTRO) Il est donc important de remplacer les niveaux d’expression manquant pour limiter ces erreurs de classification. Une des principales méthodes de remplacement des données manquantes opérées par les logiciels d’analyse de puces à ADN (Genpix, ScanAlyze) est le KNN (approche développée par Troyanskaya et al. 2001). a. K-Nearest Neighbor (KNN) Cette méthode de remplacement des données manquantes de puces à ADN détermine un groupe de K gènes dits voisins du gène d’intérêt. L’analyse s’effectue en deux étapes : (1) Premièrement, une évaluation de la distance euclidienne (1) pour toutes les autres expériences entre le gène d’intérêt et tous les autres gènes de la puce est réalisée. Ceci permet de définir les K gènes dont le niveau d’expression est régulièrement le plus proche du gène d’intérêt. Puis dans un second temps, cette méthode va moyenner le niveau d’expression des gènes du groupe K pour l’expérience d’intérêt et attribuer cette valeur au gène manquant. Lorsque la proportion de donnée manquante est trop importante, l’algorithme que nous avons utilisé effectue une moyenne du niveau d’expression de tous les gènes de l’expérience. Le nombre de voisins K à considérer est ici important car il permet d’observer successivement soit l’état du proche voisin soit la moyenne du niveau d’expression de tous les autres gènes. L’intervalle optimal correspond alors à une estimation du nombre optimal de voisins permettant d’obtenir « un peu » de ces deux effets. Pour notre jeu de données, le Koptimal (kopt=14) a été déterminé lors d’une précédente étude (de Brevern et al. 2004). Lors de nos simulation nous avons retirer des gènes en utilisant la loi uniforme puis nous avons remplacé les données manquantes par deux fonction implémentée sous R : SeqKNN(SeqKnn) et impute.knn(impute) qui est la plus récente amélioration de l’algorithme du KNN (Hastier T. et al. 2006). b. Mesure de la performance du KNN Pour quantifier l’efficacité du remplacement par le KNN, nous avons effectué mesure de la racine de la moyenne au carré normalisée (NRMSE) Plus sensible… les plus semblables au gène considéré pour les autres expériences évalue le profil d’expression de K autres gènes dont les niveaux d’expression sont connu pour l’expérience considérée et. Réalisation du calcul de la distance euclidienne… La méthode que nous avons utilisé sous R provient de la librarie impute : impute.knn Cette fonction … dont les données sont manquantes s’exprimant de la même manière que le gène d’intérêt dans les autres conditions. Réalise la distance , pour un gène dont on ignore le niveau d’expression, Le nombre de voisins optimal à considérer pour obtenir la meilleure estimation dépend des données Deux méthodes de remplacement par KNN sont implémentées sous R seqknn et impute.knn 2006 Hc : The maximum distance between elements of each cluster (also called complete linkage clustering): Evaluation du KNN par le RMSE Evaluation du HC par le CPP Matériel : Nous avons étudié 1/7 des données d’une puce à ADN (Ogawa et al. 2000) portant sur l’expression de 827 gènes d’une souche de Saccharomyces cerevisiae (NBW7) disposée dans 8 conditions différentes.