Etude de données d`expression par Analyse en Composantes

Téléchargement

Étude de données d’expression par analyse en composantes principales fonctionnellesV. BarraJOBIM 2002

Etude de données d’expression par Analyse en Composantes

Principales Fonctionnelles

BARRA VINCENT

LIMOS, FRE CNRS 2239, Campus des Cézeaux, 63117 AUBIERE

Courriel : vincent.barra@isima.fr

Résumé

Nous proposons dans cet article une méthode d’analyse de résultats expérimentaux des niveaux d’expression des

gènes. Cette technique étend l’analyse en composantes principales classique à des données fonctionnelles, issues

par exemple de la mesure répétée d’un paramètre évolutif issu d’un processus. La méthode extrait des

composantes fonctionnelles représentatives des mesures, et évalue l’adéquation de chaque donnée à ces

composantes sous la forme de scores. La méthode est automatique, rapide et particulièrement adaptée à

l’analyse de données temporelles. Nous illustrons et évaluons l’analyse en composantes principales

fonctionnelles sur des données de synthèse, puis nous proposons une application sur des données du cycle

cellulaire de la levure Saccharomyces cerevisiae. Les premiers résultats de cette étude prospective laissent

augurer une technique performante d’analyse de données d’expression de gènes

Mots-clés : Biopuces, Composante principale fonctionnelle, Classification, Cycle cellulaire.

Abstract

We propose here a method for the analysis of genes expressions. This technique widen the classical principal

component analysis to functional data, coming e.g. from the repeated measure of a parameter through time. The

method extracts functional principal components reflecting the main tendencies of the measures, and assesses

the agreement of each gene to these components by means of scores. The method is fast, fully automatic and

well-adapted to the analysis of temporal data. We illustrate and we asses the functional principal components

analysis on synthetic data, and we then propose an application for the identification of cell cycle-regulated

genes of the yeast Saccharomyces cerevisiae. First results of this prospective study shed light on the potential

interest of this technique for the analysis of gene expression data.

Keywords: Microarray, Functional principal component, Clustering, Cell cycle.

1 Introduction

Les biopuces offrent la possibilité d’étudier les variations simultanées de milliers de gènes en fonction de

diza ines d’expériences, permettant par exemple de regrouper les gènes en différentes familles au comportement

bien distinct. Les méthodes utilisées pour analyser cette masse de données incluent les réseaux de neurones [11],

les algorithmes de classification [2] ou encore l’analyse en composantes principales [5][9].Nous proposons ici

une méthode fondée sur les travaux de Ramsay concernant l’analyse de données fonctionnelles [8]. Nous

considérons qu’un profil de gène est une fonction continue d’un paramètre « temporel», et nous utilisons une

analyse en composantes principales fonctionnelles pour extraire des variations significatives dans les données et

pour regrouper les courbes en fonction de leurs variations significatives. Nous présentons tout d’abord

brièvement la méthode utilisée, nous l’évaluons ensuite que des données de synthèse et nous l’appliquons enfin

de façon prospective sur des données du cycle cellulaire de la levure Saccharomyces cerevisiae.

2 L’analyse en composantes principales fonctionnelles

Soit une matrice X = (x

ij) à N lignes et P colonnes. représentant des données fonctionnelles, i.e. des données

issues de la mesure répétée d’un paramètre évolutif issu d’un processus. Les buts de l’analyse

fonctionnelle présentée ci après sont :

 de représenter les données fonctionnelles de façon à faciliter leur analyse ;

 de visualiser les données de façon à mettre en évidence des caractéristiques diverses ;

 d’étudier des sources importantes de motifs de variations dans les données ;

 d’expliquer ces variations ;

 de comparer plusieurs ensembles de données par rapport à certaines variations.

JOBIM 2002 343

2.1 Un rappel sur l’analyse en composantes principales

L’analyse en composantes principales (ACP) [7] est une méthode d'étude des proximités entre variables avec une

métrique euclidienne (corrélation) et des différences entre individus (inertie) avec une autre métrique

euclidienne. On cherche par exemple à représenter les proximités des N individus de X par rapport aux P

variables. L’ACP se divise en étapes :

 Normalisation des données pour être indépendant des unités des P paramètres

 Calcul d’une matrice de similarité C (bien souvent la corrélation)

 Recherche des éléments propres de C, qui donnent les axes principaux

 Représentation des individus dans le nouvel espace (en ne considérant que les valeurs propres

expliquant une variance cumulée suffisante)

L’ACP a été appliquée à l’étude des biopuces [5][9], et nous proposons ici une extension de cette technique,

fondée sur les travaux de Ramsay [8].

2.2 L’analyse en composantes principales fonctionnelles (ACPF)

Les données fonctionnelles sont maintenant un ensemble de courbes continues (xi(s), i=1..N), s variant entre a et

b. X est alors composé de N individus et de la variable continue s (dimension infinie). Le problème consiste alors

à trouver un ensemble de fonctions εα(s), α dans 1..q (équivalent des vecteurs propres de C) mutuellement

orthogonales, de norme 1. Chacune d’entre elles maximise :

∑∫

idssxs

)²)()((

αε

On introduit une fonction de covariance v(s,t) = ∑

ii txsx

)()(

1=N

1XT(s) X(t), modélisée par une matrice V,

et le problème de maximisation peut se mettre sous la forme :

∫ ∫

∑∫∫ 











idsdtttsvsdttxtdssxs

N)(),()()()()()(

αααα

εεεε

On montre que la maximisation équivaut à la recherche des éléments propres de la matrice V, appelée opérateur

de covariance [8]. C’est le principe de l’ACP fonctionnelle.

La méthode consiste, après avoir centré les données fonctionnelles, à résoudre le problème d’éléments propres.

Nous choisissons ici d’écrire les données fonctionnelles comme des combinaisons linéaires de fonctions de bas e.

Chaque composante principale fonctionnelle (CPF) est alors représentée par une fonction continue.

Supposons que chaque fonction continue x

i(s) soit combinaison linéaire de K fonctions de base φk(s), k=1..K.

pondérées par des coefficients cik. Si Θ = (φk(s)) k=1..K est la matrice des fonctions de base, on peut écrire:

X(s) =CΘ(s), C matrice N*K des coefficients de combinaisons linéaires.

La fonction de covariance v(s,t) devient alors :

v(s,t) = N

1XT(s) X(t) = N

1Θ(s)TCTCΘ(t)

Soit W la matrice K*K de coefficients wkl = ∫ΦΦ dsss lk )()( . Si la fonction propre ξ(s) s’écrit dans la base

des φk(s) : ξ(s) = Θ(s)T.b, où b = [b1….bk]T alors par définition de V :

Vξ(s) = ∫

dtttsv )(),(

1bdtttCCs )()()( ΤΤΤ ΘΘΘ

∫

1ΘT(s)CTCWb.

1ΘT(s)CTCWb = λξ(s) = λΘ(s)T.b

λ valeur propre associée à la fonction propre ξ(s). Cela signifie qu’il existe une équation matricielle pour tous les

s telle que :

1CTCWb = λb(1)

V. Barra

JOBIM 2002344

Compte tenu du fait que ∫=1)(

2dss

on a

∫==ΘΘ 1)()( Wbbbdsssb TTT

Soit finalement u un vecteur normalisé tel que u = W1/2b. (1) devient alors :

1 (W1/2CTC W1/2)u = λu.

L’ACPF consiste alors à :

 Calculer les m éléments propres (u1… um)et (λ1…λm) de la matrice Q = (W1/2CTC W1/2)/N

 Calculer les m composantes principales ξi(s), i=1..m par ξ(s) = Θ(s)T.b.

 Calculer comme en ACP classique la contribution de chaque composante principale par le rapport entre

la valeur propre correspondante et la somme des valeurs propres.

 Calculer la position de chaque individu (ou courbe x

i(s)) dans le système des composantes principales

par le produit Xε,ε = [ξ1…ξm]. Si U = [u1…um] et B= [b1…bm], alors par définition F = Xε =

(CΘ)(ΘTB) = CWB = CWW-1/2B = CW1/2U.

Les scores de la courbe x

i(s) dans le système des m composantes principales sont définies sur la ième ligne de F.

Comme en ACP classique, on se limite à m=2 ou m=3. L’éloignement d’un point par rapport à l’origine traduit

l’écart de la courbe considérée par rapport à la courbe moyenne. Le scalaire f

ij est le score de l’individu i par

rapport à la composante principale j.

Les intérêts de ce type d’analyse sont nombreux :

• Les comp osantes principales sont des fonctions, donnant les comportements principaux rencontrés dans

la matrice X

• Dans le cas d’analyses temporelles (i.e. les expériences sont des mesures d’un même phénomène à des

temps différents), l’ACPF permet d’analyser des données même si les mesures ne sont pas effectuées

aux mêmes instants pour chaque gène (interpolation par les fonctions de base φk)

• L’analyse donne une formulation analytique de chaque composante principale fonctionnelle, sous la

forme d’une combinaison linéaire des φk.

3 Résultats et discussion

Dans la suite, les fonctions de base φk utilisées sont les fonctions splines cubiques de Cox de Boor N

3i(s), qui

sont rapides à calculer et proposent de bonnes propriétés mathématiques, tant au niveau de la régularité que de

l'interpolation.

3.1 Données simulées

La méthode est tout d’abord testée sur des données simulées. Suivant le modèle proposé dans [13], le niveau

d'expression du gène i au temps j x

ij est modélisé par

ij = δij + λj (αi + βi.φ(i,j))

où

φ(i,j) = sin(2πj/8 -2πk/10)

et : αi est le niveau moyen d'expression du gène i (choisi d'après une loi normale N(0,2)), βi est l'amplitude

d'expression du gène i (tiré d'après une loi normale N(3,0.5)). La fonction φ(i,j) modélise les variations cycliques

des données. k est le numéro de la classe, et deux classes différentes auront donc un déphasage différent. λj

contrôle l'amplitude sur l'expérience j (loi normale N(3,0.5)) et δij représente une erreur expérimentale de mesure

(loi normale N(0,1)).

Nous avons généré par cette méthode une matrice X de dimension 200*10 (200 gènes et 10 expériences), et

avons classé ces données par ACPF. Les trois premières composantes principales fonctionnelles expliquent 97%

des variations des courbes, et donnent accès aux variations prédominantes dans les données. En particulier,

puisque les composantes fonctionnelles sont des courbes continues, il est possible par analyse harmonique d'en

extraire les caractéristiques principales (amplitude, période). L’analyse des plans de scores fait de plus apparaître

des regroupements nets de points autour des axes principaux fonctionnels (Fig. 1) .

La distance dans le plan des scores entre un point (i.e. une ligne de X) et l’origine traduit l’amplitude de la

variation de la courbe par rapport à la moyenne. La position de ce point par rapport à l’origine donne quant à elle

le sens de la variation par rapport à CPF considérée (signe positif si même variation, et négatif si en opposition

de phase).

Étude de données d’expression par analyse en composantes principales fonctionnelles

JOBIM 2002 345

FIG. 1 – Plan des scores des deux pre mières composantes principales fonctionnelles

Nous pensons, tout comme [9] que l’utilisation d’un algorithme de classification comme étape de post-traitement

des données n’est pas nécessairement obligatoire. Les auteurs de [9] ont en effet montré sur des données de cycle

cellulaire que les regroupements pertinents des lignes de X n’étaient pas nécessairement inclus dans des nuages

de points bien définis, voire que les nuages de points résultant d’une classification étaient plutôt arbitraires [4], et

qu’il était peut être plus pertinent de déterminer des relations de voisinage entre les lignes de X, ou en ce qui

nous concerne entre les points dans les plans de score (représentant les profiles des lignes de X). C’est cette

démarche que nous avons utilisé dans la suite.

Fig.2 : composantes principales fonctionnelles et expression des lignes dans les nuages de points : un exemple

pour chaque CPF

3.2 Données réelles : étude du cycle cellulaire de la levure Saccharomyces cerevisiae

L’objectif est maintenant pour nous d’appliquer cette méthode aux données du cycle cellulaire de la levure

Saccharomyces cerevisiae [10]. En 1998, la mise à disposition du génome de cette levure a permis de lancer des

études sur les gènes régulateurs de cycle. Des biopuces ont été utilisées pour mesurer l’abondance relative ou

absolue d’ARNm pour chaque gène à différents temps du cycle cellulaire, après que les cellules aient été

synchronisées sur un moment précis du cycle. L'ensemble des informations concernant cette étude est disponible

à l'adresse http://cellcycle-www.stanford.edu/.

Les données dont nous disposons mesurent l’expression relative d'ARNm en fonction du temps dans des cultures

cellulaires synchronisées de trois manières indépendantes :

• phéromone alpha (pour stopper les cellules MATa dans G1) : deux cycles (données temporelles toutes

les 7 minutes, pendant 119 minutes)

• élutriation centrifugée (pour obtenir de petites cellules G1) : un cycle (données temporelles toutes les 30

minutes, pendant 390 minutes)

• mutation sensible à la température, cdc15-2, qui stoppe la méiose à la température critique : 3 cycles

(données temporelles toutes les 10 minutes, pendant 290 minutes)

Plan CPF1/CPF2

-3

-2 , 5

-2

-1 , 5

-1

-0 , 5

0, 5

1, 5

-4 - 3 -2 - 1 0 1 2 3 4

1 C P F

-2

-1,5

-1

-0,5

0,5

1,5

13579

2 CPF

-1,5

-1

-0,5

0,5

1,5

1 3 5 7 9

-0,6

-0,4

-0,2

0,2

0,4

0,6

01 2 3 4 5 6 7 8 9 10

CPF1 CPF2 CPF3

3 CPF

-2,5

-2

-1,5

-1

-0,5

0,5

1,5

1 3 5 7 9

V. Barra

JOBIM 2002346

Trois méthodes ont été utilisées car chacune introduit des artefacts propres (par exemple, un choc thermique pour

la dernière). Spellman et al. [10] ont identifié 800 gènes régulés par le cycle cellulaire, qui forment nos données

de départ.

L’application de l'ACPF sur ces gènes, décrits par les 56 expériences temporelles, prend 1 seconde sur un AMD

Athlon XP 1500+, avec 256 Mo de RAM. Les premiers résultats obtenus sont encourageants vis à vis des

données de la littérature [3][10][12], et doivent maintenant être spécifiquement analysés par des spécialistes de la

levure : par exemple, nous retrouvons une composante fonctionnelle exhibant une période de 110 minutes pour

l’expérience synchronisée avec cdc15. Il reste donc à exploiter pleinement la masse de données fournie par

l’ACPF (i.e. composantes principales fonctionnelles, analyse dans le plan des score qui donne le comportement

des gènes vis à vis du cycle…). Là encore, nous pensons d’abord utiliser des relations de voisinage dans l’espace

des scores plutôt qu’un algorithme de classification délimitant des nuages de points bien définis.

L'ACPF est une technique d'analyse du transcriptome intéressante, surtout dans le cas de l'étude de données

temporelles, puisqu'elle peut prendre en compte les cas où ces dernières sont acquises de façon irrégulière (les

données étant traitées comme des courbes continues dépendant d'un paramètre). De plus, dans le cas temporel, il

est également possible de traiter des données manquantes, lorsque celles-ci sont peu nombreuses pour un gène

donné (interpolation à l'aide des fonctions de base φ

k). Tous ces aspects répondent en particulier aux problèmes

déjà soulevés quant à l'application de l'analyse en composantes principales classique pour l'étude du

transcriptome ([9]).

L'ACPF permet également de décrire de manière analytique les composantes principales fonctionnelles, par

l'intermédiaire de leur décomposition dans la base des φ

k. Les profils des gènes, comme les composantes

principales fonctionnelles, sont alors des courbes de la variable réelle s et peuvent être analysées par des outils

classiques (analyse harmonique, ondelettes), afin d'en extraire les paramètres caractéristiques (par exemple

fréquence de cycle cellulaire de 110 minutes obtenue sur les données de la levure).

Outre l'étude du cycle cellulaire, nous poursuivons au laboratoire l'application de l'ACPF sur d'autres données

publiques : nous menons par exemple une étude sur les données de sporulation de la levure du boulanger [4] et

les résultats sont là -aussi encourageants et en cours de publication [1].

Références

[1] BARRA (V.), Analysis of gene expression data using functional principal components, Bioinformatics

(soumis )

[2] BEN-DOR (A.), SHAMIR (R.), YAKHINI (Z.), Clustering Gene Expression Patterns, Journal of

Computational Biology, 6, pp 281-297 , 1999.

[3] CHO (R.J.), CAMPBELL (M.J.), WINZELER (E.A.), STEINMETZ (L.), CONWAY (A.), WODICKA (L.),

WOLFSBER (T.G.), GABRIELIAN (A.E.), LANDSMAN (D.), LOCKHART (D.J.), ET AL., A genome-wide

transcriptional analysis of the mitotic-cell cycle, Mol Cell, 2, pp 65-73, 1998.

[4] CHU (S.), DERISI (J.), EISEN (M.), MULHOLLAND (J.), BOTSTEIN (D.), BROWN (P.O.), HERSKOWITZ (I.),

The transcriptional program of sporulation in budding yeast, Science, 282, pp 699-705, 1998.

[5] CRESCENZI (M.), GIULIANI (A.), The main biological determinants of tumor line taxonomy elucidated by a

principal component analysis of microarray data, FEBS Letters, 507, pp 114-118, 2001.

[6] D’HAESELLER (P.), LIANG (J.), SOMOGYI (R.), Genetic Network inference: from co-expression clustering

to reverse engineering , Bioinformatics, 16-8, pp 707-726, 2000.

[7] DUNTEMAN (G. H) Principal Components Analysis. Sage Publications, 1989

[8] RAMSAY (J.), SILVERMAN (B.), Functional Data Analysis, Springer-Verlag, 1997.

[9] RAYCHAUDHURI (S.), STUART (J.M.), ALTMAN (R. B.), Principal components analysis to summarize

microarray experiments: application to sporulation time series. In Pacific Symposium on Biocomputing,

vol. 5, 2000.

[10] SPELLMAN (P.T.), SHERLOCK (G.), ZHANG (M.Q.), IYER (V.R.), EISEN (M..B.), BROWN (P.O.), BOTSTEIN

(D.), FUTCHER (B.), Comprehensive identification of Cell-Cycle-regulated genes of the Yeast

Saccharomyces cerevisiae by microarray hybridization, Molecular Biology of the Cell, 9, pp 3273-3297,

1998.

[11] TAMAYO (P.), SLONIM (D.), MESIROV (J.), ZHU (Q.), KITAREEWAN (S.), DMITROVSKY (E.), LANDER (E.),

GOLUB (T.), Interpreting patterns of gene expression with self-organizing maps: Methods and application

to hematopoietic differentiation, Proc. Natl. Acad. Sci. USA, 96, pp. 2907–2912, 1999.

[12] TAVAZOIE (S.), HUGHES (J.D.), CAMPBELL (M.J.), CHO (R.J.), CHURCH (G.M.), Systematic determination

of genetic network architecture, Nature Genetics, 22, pp 281-285, 1999.

[13] YEUNG (K.Y.), Principal Component Analysis for clustering gene expression data, Technical Report UW-

CSE-2000-11-03, Department of Computer Science & Engineering, University of Washington, Seattle,

2000.

Étude de données d’expression par analyse en composantes principales fonctionnelles

JOBIM 2002 347

1 / 5 100%

Documents connexes

Format type d`une STB

Identifiez les zones fonctionnelles du rez-de

responsable cellule des marchés

L`incorporation au grain à la dose de 2% de levure de bière à la

Guide d’entretien

Fiche de poste psycho ergonome

DESCRIPTIF DE FONCTION REF. 982

Résumé

FICHE DE POSTE ATRF P2 – BAP G Electricien courants forts

Segmenter, cibler et se positionner recto

ECOLE DOCTORALE DES SCIENCES DE LA VIE ET DE LA SANTE

L`eugénisme est une théorie, et une pratique, qui consiste en l

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Etude de données d`expression par Analyse en Composantes

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Etude de données d`expression par Analyse en Composantes

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib