Introduction 1. Données de puces à ADN Dans le cadre du cours de Méthode d’Optimisation et Apprentissage en Biologie, nous avons réalisé un projet portant sur l’influence des données manquantes dans l’analyse des puces ADN. Les données sur lesquelles nous avons travaillé proviennent d’un article paru dans Molecular Biology Cell en 2000 intitulé : « New components of a system for phosphate accumulation and polyphosphate metabolism in Saccharomyces cerevisiae revealed by genomic expression analysis » par Ogawa N.. Cet article décrit l’expression de 6013 gènes d’une souche de Saccharomyces cerevisiae NBW7 disposée dans 8 conditions différentes (Annexe 1). 1/7 ses gènes, dont le profil d’expression est complet, ont constitué le support de notre étude. Afin d’expliciter notre projet, nous présenterons tout d’abord l’implication des données manquantes dans le système d’analyse des puces puis la démarche que nous avons entrepris pour déterminer si cela pouvait entraîner une erreur d’analyse du transcriptome étudié. 2. Données manquantes d’expression Lors d’une analyse des résultats d’une puce à ADN, il apparaît souvent que les profils d’expression de certains gènes comportent des données manquantes. Celles-ci sont principalement dues à des erreurs de manipulations caractérisées par des poussières ou des rayures de la puce et par des erreurs de lecture de l’image par le scanner. Lors du prétraitement des données de ses puces réalisé par des outils tel que GEPAS, les profils d’expression des gènes sont filtrés pour éliminer les profils comportant plus de 70% de valeurs manquantes ou traités pour remplacer les valeurs manquantes. Une des principales méthodes de remplacement opérée par ces logiciels est celle des K-plus proches voisins (KNN). Cette approche développée par Troyanskaya et al. (2001) estime la valeur d’une donnée manquante à partir des données d’expression d’autres gènes de la puce. Les données manquantes sont donc traitées lors des analyses et, de part leurs remplacements, vont participer à l’information issue de la puce. 3. Problématique Au cours de cette étude, nous avons cherché à identifier et à quantifier l’influence des données manquantes sur la classification des gènes lorsque les données étaient remplacées ou non par la méthode des KNN. Cette étude a été réalisée en langage R. Matériel et Méthodes 1. Génération de données manquantes Afin de retirer aléatoirement des données d’expression des gènes selon un pourcentage précis de valeurs manquantes, nous avons utilisé la fonction runif de R. Cette fonction nous permet de réaliser un tirage de valeurs aléatoires suivant la loi uniforme. Les valeurs de ce tirage déterminent les données d’expression des gènes à retirer du jeu de données suivant qu’elles soient inférieures ou égales au pourcentage de données manquantes à réaliser. 100 simulations indépendantes sont opérées pour chacun des taux de données manquantes. Nous avons fait varier le taux de données manquantes entre 1 et 50% avec un pas de 1%. 2. Remplacement des données manquantes par la méthode K-Nearest Neighbor (KNN) Cette méthode de remplacement des données manquantes détermine un groupe de K gènes dits voisins du gène d’intérêt. L’analyse s’effectue en deux étapes : (1) Premièrement, une évaluation de la distance euclidienne (1) entre le gène d’intérêt et tous les autres gènes de la puce pour toutes les 8 expériences de la puce est réalisée. Ceci permet de définir les K gènes dont le niveau d’expression est régulièrement le plus proche du gène d’intérêt. Puis dans un second temps, cette méthode va moyenner le niveau d’expression des gènes du groupe K pour l’expérience d’intérêt et attribuer cette valeur au gène manquant. Lorsque la proportion de donnée manquante est trop importante, l’algorithme, que nous avons utilisé, effectue une moyenne du niveau d’expression de tous les gènes de l’expérience. Le nombre de voisins K à considérer est ici important car il permet d’observer successivement soit l’état des plus proches voisins s’il est trop faible, soit de moyenner le niveau d’expression de tous les autres gènes s’il est trop important. L’intervalle optimal doit donc être calculé pour chaque jeu de donnée. Pour notre jeu de données, le Koptimal (kopt=14) a été déterminé lors d’une précédente étude (de Brevern et al. 2004). La fonction de R que nous avons employé pour réaliser cette méthode est celle de l’«impute.knn » de la librairie impute. Cette fonction implémentée sous R (Hastier T. et al. 2006) correspond à une amélioration de la rapidité l’algorithme d’évaluation des plus proches voisins d’un gène considéré employé par le knn et le seq.knn implémentés sous R selon un coût de Φ=nlog(n). 3. Mesure de la qualité du remplacement par le Normalized Root Mean Square Error (NRMSE) Nous avons effectué une mesure de la racine de la moyenne au carré normalisée (NRMSE) (2) (Wang X. et al. 2006) pour les estimations réalisées par le knn. (2) Où yguess correspond à la valeur estimée de l’expression d’un gène X et yanswer au vrai niveau d’expression du gène. Cette mesure rend compte de l’efficacité du remplacement opéré par le KNN 4. Classification hiérarchique des gènes Hc : The maximum distance between elements of each cluster (also called complete linkage clustering): 5. CPP