Projet de R

Téléchargement

Introduction

1. Données de puces à ADN

Dans le cadre du cours de Méthode d’Optimisation et Apprentissage en Biologie, nous avons

réalisé un projet portant sur l’influence des données manquantes dans l’analyse des puces

ADN. Les données sur lesquelles nous avons travaillé proviennent d’un article paru dans

Molecular Biology Cell en 2000 intitulé : « New components of a system for phosphate

accumulation and polyphosphate metabolism in Saccharomyces cerevisiae revealed by

genomic expression analysis » par Ogawa N.. Cet article décrit l’expression de 6013 gènes

d’une souche de Saccharomyces cerevisiae (NBW7) disposée dans 8 (7 en effet..) conditions

différentes (Annexe 1). Nous avons étudié le profil d’expression complet de 1/7 de ses gènes.

Au cours de cette étude, nous avons généré des données manquantes et nous nous sommes

intéressé à leur influence sur la classification des gènes après que ces valeurs aient été

remplacées ou non par une méthode évaluant le niveau d’expression des K-plus proches

voisins (KNN). Afin d’expliciter notre projet, nous présenterons tout d’abord l’effet du

manque de données sur la classification hiérarchique des gènes puis nous étudierons la

« qualité du remplacement » effectué par le KNN.

2. Génération et remplacement de données manquantes

Les profils d’expression des gènes réalisés par puces ADN comportent souvent des données

manquantes. Celles-ci sont principalement dues à des erreurs de manipulation caractérisées

par des poussières ou des rayures de la « plaque » et par des erreurs de lecture de l’image par

le scanner. La présence de données manquantes engendre des perturbations de la classification

des gènes (figure 1) et entraine des mesappariements (HCLUST d’INTRO)

Il est donc important de remplacer les niveaux d’expression manquant pour limiter ces erreurs

de classification. Une des principales méthodes de remplacement des données manquantes

opérées par les logiciels d’analyse de puces à ADN (Genpix, ScanAlyze) est le KNN

(approche développée par Troyanskaya et al. 2001).

a. K-Nearest Neighbor (KNN)

Cette méthode de remplacement des données manquantes de puces à ADN détermine un

groupe de K gènes dits voisins du gène d’intérêt. L’analyse s’effectue en deux étapes :

(1)

Premièrement, une évaluation de la distance euclidienne (1) pour toutes les autres expériences

entre le gène d’intérêt et tous les autres gènes de la puce est réalisée. Ceci permet de définir

les K gènes dont le niveau d’expression est régulièrement le plus proche du gène d’intérêt.

Puis dans un second temps, cette méthode va moyenner le niveau d’expression des gènes du

groupe K pour l’expérience d’intérêt et attribuer cette valeur au gène manquant. Lorsque la

proportion de donnée manquante est trop importante, l’algorithme que nous avons utilisé

effectue une moyenne du niveau d’expression de tous les gènes de l’expérience.

Le nombre de voisins K à considérer est ici important car il permet d’observer successivement

soit l’état du proche voisin soit la moyenne du niveau d’expression de tous les autres gènes.

L’intervalle optimal correspond alors à une estimation du nombre optimal de voisins

permettant d’obtenir « un peu » de ces deux effets. Pour notre jeu de données, le Koptimal

(kopt=14) a été déterminé lors d’une précédente étude (de Brevern et al. 2004).

Lors de nos simulation nous avons retirer des gènes en utilisant la loi uniforme puis nous

avons remplacé les données manquantes par deux fonction implémentée sous R :

SeqKNN(SeqKnn) et impute.knn(impute) qui est la plus récente amélioration de l’algorithme

du KNN (Hastier T. et al. 2006).

b. Mesure de la performance du KNN

Pour quantifier l’efficacité du remplacement par le KNN, nous avons effectué mesure de la

racine de la moyenne au carré normalisée (NRMSE)

Plus sensible…

les plus semblables au gène considéré pour les autres expériences évalue le profil

d’expression de K autres gènes dont les niveaux d’expression sont connu pour l’expérience

considérée et. Réalisation du calcul de la distance euclidienne…

La méthode que nous avons utilisé sous R provient de la librarie impute : impute.knn

Cette fonction …

dont les données sont manquantes s’exprimant de la même manière que le gène d’intérêt

dans les autres conditions. Réalise la distance

, pour un gène dont on ignore le niveau d’expression,

Le nombre de voisins optimal à considérer pour obtenir la meilleure estimation dépend des

données

Deux méthodes de remplacement par KNN sont implémentées sous R seqknn et impute.knn

2006

Hc :

The maximum distance between elements of each cluster (also called complete linkage

clustering):

Evaluation du KNN par le RMSE

Evaluation du HC par le CPP

Matériel :

Nous avons étudié 1/7 des données d’une puce à ADN (Ogawa et al. 2000) portant sur

l’expression de 827 gènes d’une souche de Saccharomyces cerevisiae (NBW7) disposée dans

8 conditions différentes.

1 / 3 100%

Documents connexes

Introduction

Résumé

Diagnostique génétique du cancer du sein

Le Téléthon est national. Ce mot est composé de deux autres mots

Moteurs électriques à régulation de fréquence (type I)

LES GÈNES ET LES ALLÈLES

Trichostatine A - Encyclopédie sur le développement des jeunes

Rapport de l`Académie de médecine « Maladies rares, le

Introduction

Cellule, ADN, unité du vivant

HF pour les patients

Lire la brève / full text

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Projet de R

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Projet de R

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib