Introduction
1. Données de puces à ADN
Dans le cadre du cours de Méthode d’Optimisation et Apprentissage en Biologie, nous avons
réalisé un projet portant sur l’influence des données manquantes dans l’analyse des puces
ADN. Les données sur lesquelles nous avons travaillé proviennent d’un article paru dans
Molecular Biology Cell en 2000 intitulé : « New components of a system for phosphate
accumulation and polyphosphate metabolism in Saccharomyces cerevisiae revealed by
genomic expression analysis » par Ogawa N.. Cet article décrit l’expression de 6013 gènes
d’une souche de Saccharomyces cerevisiae (NBW7) disposée dans 8 (7 en effet..) conditions
différentes (Annexe 1). Nous avons étudié le profil d’expression complet de 1/7 de ses gènes.
Au cours de cette étude, nous avons généré des données manquantes et nous nous sommes
intéressé à leur influence sur la classification des gènes après que ces valeurs aient été
remplacées ou non par une méthode évaluant le niveau d’expression des K-plus proches
voisins (KNN). Afin d’expliciter notre projet, nous présenterons tout d’abord l’effet du
manque de données sur la classification hiérarchique des gènes puis nous étudierons la
« qualité du remplacement » effectué par le KNN.
2. Génération et remplacement de données manquantes
Les profils d’expression des gènes réalisés par puces ADN comportent souvent des données
manquantes. Celles-ci sont principalement dues à des erreurs de manipulation caractérisées
par des poussières ou des rayures de la « plaque » et par des erreurs de lecture de l’image par
le scanner. La présence de données manquantes engendre des perturbations de la classification
des gènes (figure 1) et entraine des mesappariements (HCLUST d’INTRO)
Il est donc important de remplacer les niveaux d’expression manquant pour limiter ces erreurs
de classification. Une des principales méthodes de remplacement des données manquantes
opérées par les logiciels d’analyse de puces à ADN (Genpix, ScanAlyze) est le KNN
(approche développée par Troyanskaya et al. 2001).
a. K-Nearest Neighbor (KNN)
Cette méthode de remplacement des données manquantes de puces à ADN détermine un
groupe de K gènes dits voisins du gène d’intérêt. L’analyse s’effectue en deux étapes :
(1)
Premièrement, une évaluation de la distance euclidienne (1) pour toutes les autres expériences
entre le gène d’intérêt et tous les autres gènes de la puce est réalisée. Ceci permet de définir
les K gènes dont le niveau d’expression est régulièrement le plus proche du gène d’intérêt.
Puis dans un second temps, cette méthode va moyenner le niveau d’expression des gènes du
groupe K pour l’expérience d’intérêt et attribuer cette valeur au gène manquant. Lorsque la
proportion de donnée manquante est trop importante, l’algorithme que nous avons utilisé
effectue une moyenne du niveau d’expression de tous les gènes de l’expérience.