Projet de R

publicité
Introduction
1. Données de puces à ADN
Dans le cadre du cours de Méthode d’Optimisation et Apprentissage en Biologie, nous avons
réalisé un projet portant sur l’influence des données manquantes dans l’analyse des puces
ADN. Les données sur lesquelles nous avons travaillé proviennent d’un article paru dans
Molecular Biology Cell en 2000 intitulé : « New components of a system for phosphate
accumulation and polyphosphate metabolism in Saccharomyces cerevisiae revealed by
genomic expression analysis » par Ogawa N.. Cet article décrit l’expression de 6013 gènes
d’une souche de Saccharomyces cerevisiae (NBW7) disposée dans 8 (7 en effet..) conditions
différentes (Annexe 1). Nous avons étudié le profil d’expression complet de 1/7 de ses gènes.
Au cours de cette étude, nous avons généré des données manquantes et nous nous sommes
intéressé à leur influence sur la classification des gènes après que ces valeurs aient été
remplacées ou non par une méthode évaluant le niveau d’expression des K-plus proches
voisins (KNN). Afin d’expliciter notre projet, nous présenterons tout d’abord l’effet du
manque de données sur la classification hiérarchique des gènes puis nous étudierons la
« qualité du remplacement » effectué par le KNN.
2. Génération et remplacement de données manquantes
Les profils d’expression des gènes réalisés par puces ADN comportent souvent des données
manquantes. Celles-ci sont principalement dues à des erreurs de manipulation caractérisées
par des poussières ou des rayures de la « plaque » et par des erreurs de lecture de l’image par
le scanner. La présence de données manquantes engendre des perturbations de la classification
des gènes (figure 1) et entraine des mesappariements (HCLUST d’INTRO)
Il est donc important de remplacer les niveaux d’expression manquant pour limiter ces erreurs
de classification. Une des principales méthodes de remplacement des données manquantes
opérées par les logiciels d’analyse de puces à ADN (Genpix, ScanAlyze) est le KNN
(approche développée par Troyanskaya et al. 2001).
a. K-Nearest Neighbor (KNN)
Cette méthode de remplacement des données manquantes de puces à ADN détermine un
groupe de K gènes dits voisins du gène d’intérêt. L’analyse s’effectue en deux étapes :
(1)
Premièrement, une évaluation de la distance euclidienne (1) pour toutes les autres expériences
entre le gène d’intérêt et tous les autres gènes de la puce est réalisée. Ceci permet de définir
les K gènes dont le niveau d’expression est régulièrement le plus proche du gène d’intérêt.
Puis dans un second temps, cette méthode va moyenner le niveau d’expression des gènes du
groupe K pour l’expérience d’intérêt et attribuer cette valeur au gène manquant. Lorsque la
proportion de donnée manquante est trop importante, l’algorithme que nous avons utilisé
effectue une moyenne du niveau d’expression de tous les gènes de l’expérience.
Le nombre de voisins K à considérer est ici important car il permet d’observer successivement
soit l’état du proche voisin soit la moyenne du niveau d’expression de tous les autres gènes.
L’intervalle optimal correspond alors à une estimation du nombre optimal de voisins
permettant d’obtenir « un peu » de ces deux effets. Pour notre jeu de données, le Koptimal
(kopt=14) a été déterminé lors d’une précédente étude (de Brevern et al. 2004).
Lors de nos simulation nous avons retirer des gènes en utilisant la loi uniforme puis nous
avons remplacé les données manquantes par deux fonction implémentée sous R :
SeqKNN(SeqKnn) et impute.knn(impute) qui est la plus récente amélioration de l’algorithme
du KNN (Hastier T. et al. 2006).
b. Mesure de la performance du KNN
Pour quantifier l’efficacité du remplacement par le KNN, nous avons effectué mesure de la
racine de la moyenne au carré normalisée (NRMSE)
Plus sensible…
les plus semblables au gène considéré pour les autres expériences évalue le profil
d’expression de K autres gènes dont les niveaux d’expression sont connu pour l’expérience
considérée et. Réalisation du calcul de la distance euclidienne…
La méthode que nous avons utilisé sous R provient de la librarie impute : impute.knn
Cette fonction …
dont les données sont manquantes s’exprimant de la même manière que le gène d’intérêt
dans les autres conditions. Réalise la distance
, pour un gène dont on ignore le niveau d’expression,
Le nombre de voisins optimal à considérer pour obtenir la meilleure estimation dépend des
données
Deux méthodes de remplacement par KNN sont implémentées sous R seqknn et impute.knn
2006
Hc :
The maximum distance between elements of each cluster (also called complete linkage
clustering):
Evaluation du KNN par le RMSE
Evaluation du HC par le CPP
Matériel :
Nous avons étudié 1/7 des données d’une puce à ADN (Ogawa et al. 2000) portant sur
l’expression de 827 gènes d’une souche de Saccharomyces cerevisiae (NBW7) disposée dans
8 conditions différentes.
Téléchargement