Introduction 1. Données de puces à ADN Dans le cadre du cours de Méthode d’Optimisation et Apprentissage en Biologie, nous avons réalisé un projet portant sur l’influence des données manquantes dans l’analyse des puces à ADN. Les données sur lesquelles nous avons travaillé proviennent d’un article paru dans Molecular Biology Cell en 2000 intitulé : « New components of a system for phosphate accumulation and polyphosphate metabolism in Saccharomyces cerevisiae revealed by genomic expression analysis » par Ogawa N.. Cet article décrit l’expression de 6013 gènes d’une souche de Saccharomyces cerevisiae NBW7 disposée dans 8 conditions différentes (Annexe 1). 1/7 de ses gènes, dont le profil d’expression est complet, ont constitué le support de notre étude. Afin d’expliciter notre projet, nous présenterons tout d’abord l’implication des données manquantes dans le système d’analyse des puces puis la démarche que nous avons entrepris pour déterminer si cela pouvait entraîner une erreur d’analyse du transcriptome étudié. 2. Données manquantes d’expression Lors d’une analyse des résultats d’une puce à ADN, il apparaît souvent que les profils d’expression de certains gènes comportent des données manquantes. Celles-ci sont principalement dues à des erreurs de manipulations caractérisées par des poussières ou des rayures de la puce et par des erreurs de lecture de l’image par le scanner. Lors du prétraitement des données de ses puces réalisé par des outils tel que GEPAS, les profils d’expression des gènes sont filtrés pour éliminer les profils comportant plus de 70% de valeurs manquantes ou traités pour remplacer les valeurs manquantes. Une des principales méthodes de remplacement opérée par ces logiciels est celle des K-plus proches voisins (KNN). Cette approche développée par Troyanskaya et al. (2001) estime la valeur d’une donnée manquante à partir des données d’expression d’autres gènes de la puce. Les données manquantes sont donc traitées lors des analyses et, de part leurs remplacements, vont participer à l’information issue de la puce. 3. Problématique Au cours de cette étude, nous avons cherché à identifier et à quantifier l’influence des données manquantes sur la classification des gènes lorsque les données étaient remplacées ou non par la méthode des KNN. Cette étude a été réalisée en langage R. Matériel et Méthodes Les résultats ici présenté ont été obtenu par la réalisation de programme sous R 2.6.1 grâce aux librairies MASS et impute. 1. Génération de données manquantes Afin de retirer aléatoirement des données d’expression des gènes selon un pourcentage précis de valeurs manquantes, nous avons utilisé la fonction runif de R. Cette fonction nous permet de réaliser un tirage de valeurs aléatoires suivant la loi uniforme. Les valeurs de ce tirage déterminent les données d’expression des gènes à retirer du jeu de données suivant qu’elles soient inférieures ou égales au pourcentage de données manquantes à réaliser. 100 simulations indépendantes sont opérées pour chacun des taux de données manquantes. Nous avons fait varier le taux de données manquantes entre 1 et 50% avec un pas de 1%. Deux taux de données manquantes seront principalement étudié : 1% et 10% qui correspondent aux observés de données manquantes dans les puces. 2. Remplacement des données manquantes par la méthode K-Nearest Neighbor (KNN) Cette méthode de remplacement des données manquantes détermine un groupe de K gènes dits voisins du gène d’intérêt. L’analyse s’effectue en deux étapes : (1) Premièrement, une évaluation de la distance euclidienne (1) entre le gène d’intérêt et tous les autres gènes de la puce pour les 8 expériences est réalisée. Ceci permet de définir les K gènes dont le niveau d’expression est régulièrement le plus proche du gène d’intérêt. Puis dans un second temps, cette méthode va moyenner le niveau d’expression des gènes du groupe K pour l’expérience d’intérêt et attribuer cette valeur au gène manquant. Lorsque la proportion de donnée manquante est trop importante, l’algorithme, que nous avons utilisé, effectue une moyenne du niveau d’expression de tous les gènes de l’expérience. Le nombre de voisins K à considérer est ici important car il permet d’observer successivement soit l’état des plus proches voisins s’il est trop faible, soit de moyenner le niveau d’expression global des gènes de l’expérience s’il est trop important. L’intervalle optimal doit donc être calculé pour chaque jeu de donnée afin d’obtenir la meilleure estimation. Pour notre jeu de données, le Koptimal (kopt=14) a été déterminé lors d’une précédente étude (de Brevern et al. 2004). La fonction de R que nous avons employé pour réaliser cette méthode est celle de l’«impute.knn » de la librairie impute. Cette fonction implémentée sous R (Hastier T. et al. 2006) correspond à une amélioration de la rapidité de l’algorithme d’évaluation des plus proches voisins pour un gène employé par le knn et le seq.knn implémentés sous R selon un coût de Φ=nlog(n). 3. Estimation de la distance entre les données complètes et remplacées a. Root Mean Square Error (RMSE) Nous avons calculé la racine de la moyenne au carré (RMSE) : Où Rmv est la valeur réelle d’une donnée manquante que l’on compare à Imv qui est la valeur estimée par KNN. M correspond au nombre de données manquantes considéré. Cette mesure nous permet d’estimer la distance entre l’évaluation réalisée par KNN et les données réelles. b. Normalized Root Mean Square Error (NRMSE) Nous avons calculé la racine de la moyenne au carré normalisée (NRMSE) (2) (Wang X. et al. 2006) pour les estimations réalisées par le knn. (2) Où Yguess correspond à la valeur estimée de l’expression d’un gène X et Yanswer au vrai niveau d’expression du gène. Cette mesure rend compte de l’efficacité et du bruit généré par le remplacement opéré par le KNN en prenant en compte de la variance et la moyenne des données de l’expérience. Plus NRMSE est élevé plus la qualité de l’estimation est faible. 4. Estimation de la stabilité des groupes de gènes par CPP L’analyse du CPP (Conserved Pairs Proportion, De Brevern et al. 2004) consiste à déterminer si les gènes associés dans des groupes par classification demeurent associés après la génération et le remplacement des données manquantes. Pour cela, nous avons réalisé une classification hiérarchique des gènes dans le jeu de données complet et après génération de données manquantes, grâce à la fonction hclust et la méthode d’estimation complete implémenté dans R. Cette méthode d’estimation considère la distance maximale entre chaque élément de chaque groupe. C’est est la méthode la plus sensible à l’introduction de données manquantes (de Brevern et al. 2004) et donc de la qualité du remplacement des données. Nous avons ensuite coupé ce dendrogramme grâce la fonction cutree avec k=36 groupes (de Brevern et al. 2004). Enfin nous avons estimé le nombre d’individu qui demeurent dans le même groupe grâce à la fonction table et calculé le CPP (3) : (3) Résultats 1. Classification hiérarchique des gènes à partir de données de puces complètes et incomplètes Un dendrogramme des données de puce (Ogawa et al. 1/7) a été réalisé sans et avec 1% de données manquantes (figure 1). En présence de 1% de données manquantes, il apparaît que la structure du dendrogramme est modifiée de manière importante lorsque ces données sont remplacées par zéro. Les branches gauches des nœuds supérieurs comprennent plus de gènes du fait d’une réallocation importante des gènes entre les différents groupes du dendrogramme. Lorsque ces données manquantes sont remplacées par la méthode du KNN, la structure des branches supérieures semble être rétablie bien qu’il y est une modification de structure inférieure du dendrogramme. 2. Estimation du NRMSE et du RMSE lors du remplacement des données manquantes par la méthode du KNN Un profil de l’estimation des données manquantes par la méthode du KNN et par le remplacement zéro a été réalisé par calcul du NRMSE et du RMSE depuis un taux de 1% à 50% de données manquantes (figure 2). Le RMSE des données remplacées par KNN est inférieur d’un facteur de 10% de celui des données remplacées par zéro et reste inférieur à 20% d’erreur jusqu’à 35% de données manquantes. La détermination du NRMSE nous indique que le KNN réduit le bruitage des données de 15% par rapport à un remplacement des données manquantes par zéro. En s'établissant à 0.8-0.9, le bruit généré par le KNN reste cependant assez important. 3. Estimation de la répartition des niveaux d’expression lors du remplacement des données manquantes par la méthode du KNN Nous avons effectué une analyse des occurrences des niveaux d’expression sur les données complètes et après remplacement de 1% et 10% des données manquantes par la méthode du KNN (figure 3). Comme le montre les histogrammes, il y a une sous estimation des valeurs >0.5 et <- 0.5 extrêmes et une surestimation des valeurs proches de 0 pour 1 et 10% de données manquantes. Nous avons ensuite étudié l’évolution de la variance en fonction du taux de données manquantes (figure 4). La méthode de remplacement des données par KNN diminue la variance des données de près de 20%. 4. Estimation de la conservation des gènes au sein de leur groupe lors du remplacement des données manquantes par la méthode du KNN Nous avons étudié la conservation des gènes dans leurs groupes de classification suivant leurs niveaux d’expression estimé dans les données complètes et après remplacement des données depuis un taux de 1 à 50% (figure 5).Près de 50% des gènes changent de groupe dès la génération de 1% de données manquantes. Ceci est en accord avec les données de classification pour le KNN où l’on peut observer une modification importante des groupes situés en bas de la hiérarchie. Lorsque l’on augmente la proportion de données manquantes, ce taux diminue encore de 10% lors de la génération de 50% de données manquantes. DISCUSSION – CONCLUSION Le travail que nous avons réalisé a consisté premièrement à déterminer l’implication des données manquantes dans les erreurs d’analyse par mauvaise association des gènes. L’analyse du dendrogramme a révélé que l’absence de seulement 1% des données entraînait une modification importante du regroupement des gènes mais elle a aussi mis en évidence la capacité de la méthode de remplacement par KNN de minorer cette tendance. Pour déterminer si cette capacité de correction de l’erreur de regroupement des gènes était le résultat d’un bon rétablissement des données manquantes, nous avons étudié la qualité du remplacement effectué par le KNN depuis un taux de 1% à 50% de données manquantes. Il est apparu lors de cette analyse que le KNN réalisait effectivement une bonne estimation des données manquantes (jusqu’à 35% de données manquantes pour nos résultats de puce) mais que son utilisation entraînait une augmentation du bruitage des données. Nous avons ensuite recherché si la répartition des données d’expression des gènes était altérée lors de la génération de 1% et de 10 % de données manquantes. Le remplacement de ses données par la méthode du KNN a engendré la diminution du nombre de valeurs « extrêmes » et augmenté la proportion de valeur proche de 0 ce qui engendre une réduction de la variance des données. Pour aller plus loin dans l’évaluation du remplacement des données effectuées, nous avons déterminé la proportion de gènes conservant leur groupe en fonction du taux de données manquantes. Nous avons pu observé que l’estimation par KNN était stable et ainsi il est apparu en effet que la méthode d’estimation par KNN entraînait une diminution de la variance des données. Il s’avère ainsi que l’emploi du KNN comme méthode de remplacement par Enfin nous avons étudié la modification du regroupement des gènes c le KNN influait Plusieurs approches