Étude de données d’expression par analyse en composantes principales fonctionnellesV. BarraJOBIM 2002
Etude de données d’expression par Analyse en Composantes
Principales Fonctionnelles
BARRA VINCENT
LIMOS, FRE CNRS 2239, Campus des Cézeaux, 63117 AUBIERE
Courriel : vincent.barra@isima.fr
Résumé
Nous proposons dans cet article une méthode d’analyse de résultats exrimentaux des niveaux d’expression des
nes. Cette technique étend l’analyse en composantes principales classique à des dones fonctionnelles, issues
par exemple de la mesure e d’un paratre évolutif issu d’un processus. La méthode extrait des
composantes fonctionnelles représentatives des mesures, et évalue l’adéquation de chaque done à ces
composantes sous la forme de scores. La méthode est automatique, rapide et particulièrement adaptée à
l’analyse de dones temporelles. Nous illustrons et évaluons l’analyse en composantes principales
fonctionnelles sur des données de syntse, puis nous proposons une application sur des dones du cycle
cellulaire de la levure Saccharomyces cerevisiae. Les premiers sultats de cette étude prospective laissent
augurer une technique performante d’analyse de données d’expression de gènes
Mots-clés : Biopuces, Composante principale fonctionnelle, Classification, Cycle cellulaire.
Abstract
We propose here a method for the analysis of genes expressions. This technique widen the classical principal
component analysis to functional data, coming e.g. from the repeated measure of a parameter through time. The
method extracts functional principal components reflecting the main tendencies of the measures, and assesses
the agreement of each gene to these components by means of scores. The method is fast, fully automatic and
well-adapted to the analysis of temporal data. We illustrate and we asses the functional principal components
analysis on synthetic data, and we then propose an application for the identification of cell cycle-regulated
genes of the yeast Saccharomyces cerevisiae. First results of this prospective study shed light on the potential
interest of this technique for the analysis of gene expression data.
Keywords: Microarray, Functional principal component, Clustering, Cell cycle.
1 Introduction
Les biopuces offrent la possibili d’étudier les variations simultanées de milliers de gènes en fonction de
diza ines d’expériences, permettant par exemple de regrouper les gènes en différentes familles au comportement
bien distinct. Les méthodes utilisées pour analyser cette masse de données incluent les réseaux de neurones [11],
les algorithmes de classification [2] ou encore l’analyse en composantes principales [5][9].Nous proposons ici
une thode fondée sur les travaux de Ramsay concernant l’analyse de données fonctionnelles [8]. Nous
considérons qu’un profil de gène est une fonction continue d’un paramètre « temporel», et nous utilisons une
analyse en composantes principales fonctionnelles pour extraire des variations significatives dans les données et
pour regrouper les courbes en fonction de leurs variations significatives. Nous présentons tout d’abord
brvement la thode utilisée, nous l’évaluons ensuite que des dones de syntse et nous l’appliquons enfin
de façon prospective sur des données du cycle cellulaire de la levure Saccharomyces cerevisiae.
2 L’analyse en composantes principales fonctionnelles
Soit une matrice X = (x
ij) à N lignes et P colonnes. représentant des dones fonctionnelles, i.e. des données
issues de la mesure répétée d’un paramètre évolutif issu d’un processus. Les buts de l’analyse
fonctionnelle psene ci aps sont :
de repsenter les dones fonctionnelles de façon à faciliter leur analyse ;
de visualiser les dones de façon à mettre en évidence des caracristiques diverses ;
d’étudier des sources importantes de motifs de variations dans les données ;
d’expliquer ces variations ;
de comparer plusieurs ensembles de données par rapport à certaines variations.
JOBIM 2002 343
2.1 Un rappel sur l’analyse en composantes principales
L’analyse en composantes principales (ACP) [7] est une méthode d'étude des proximités entre variables avec une
métrique euclidienne (corrélation) et des différences entre individus (inertie) avec une autre métrique
euclidienne. On cherche par exemple à repsenter les proximis des N individus de X par rapport aux P
variables. L’ACP se divise en étapes :
Normalisation des dones pour être inpendant des unis des P paramètres
Calcul d’une matrice de similarité C (bien souvent la corrélation)
Recherche des éléments propres de C, qui donnent les axes principaux
Représentation des individus dans le nouvel espace (en ne considérant que les valeurs propres
expliquant une variance cumulée suffisante)
L’ACP a été appliqe à l’étude des biopuces [5][9], et nous proposons ici une extension de cette technique,
fondée sur les travaux de Ramsay [8].
2.2 L’analyse en composantes principales fonctionnelles (ACPF)
Les données fonctionnelles sont maintenant un ensemble de courbes continues (xi(s), i=1..N), s variant entre a et
b. X est alors composé de N individus et de la variable continue s (dimension infinie). Le problème consiste alors
à trouver un ensemble de fonctions εα(s), α dans 1..q (équivalent des vecteurs propres de C) mutuellement
orthogonales, de norme 1. Chacune d’entre elles maximise :
=
N
i
b
a
idssxs
N1
)²)()((
1
αε
On introduit une fonction de covariance v(s,t) =
=
N
i
ii txsx
N1
)()(
1=N
1XT(s) X(t), modélisée par une matrice V,
et le probme de maximisation peut se mettre sous la forme :
∫ ∫
=
=
b
a
b
a
N
i
b
a
i
b
a
idsdtttsvsdttxtdssxs
N)(),()()()()()(
1
1
αααα
εεεε
On montre que la maximisation équivaut à la recherche des éléments propres de la matrice V, appelée opérateur
de covariance [8]. C’est le principe de l’ACP fonctionnelle.
La méthode consiste, après avoir centles dones fonctionnelles, à soudre le probme d’éments propres.
Nous choisissons ici d’écrire les données fonctionnelles comme des combinaisons linéaires de fonctions de bas e.
Chaque composante principale fonctionnelle (CPF) est alors représene par une fonction continue.
Supposons que chaque fonction continue x
i(s) soit combinaison linéaire de K fonctions de base φk(s), k=1..K.
pondérées par des coefficients cik. Si Θ = (φk(s)) k=1..K est la matrice des fonctions de base, on peut écrire:
X(s) =CΘ(s), C matrice N*K des coefficients de combinaisons linéaires.
La fonction de covariance v(s,t) devient alors :
v(s,t) = N
1XT(s) X(t) = N
1Θ(s)TCTCΘ(t)
Soit W la matrice K*K de coefficients wkl = ΦΦ dsss lk )()( . Si la fonction propre ξ(s) sécrit dans la base
des φk(s) : ξ(s) = Θ(s)T.b, où b = [b1….bk]T alors par définition de V :
Vξ(s) =
b
a
dtttsv )(),(
ξ
=N
1bdtttCCs )()()( ΤΤΤ ΘΘΘ
=N
1ΘT(s)CTCWb.
Et
N
1ΘT(s)CTCWb = λξ(s) = λΘ(s)T.b
λ valeur propre associée à la fonction propre ξ(s). Cela signifie qu’il existe une équation matricielle pour tous les
s telle que :
N
1CTCWb = λb(1)
V. Barra
JOBIM 2002344
Compte tenu du fait que =1)(
2dss
ξ
on a
==ΘΘ 1)()( Wbbbdsssb TTT
Soit finalement u un vecteur normali tel que u = W1/2b. (1) devient alors :
N
1 (W1/2CTC W1/2)u = λu.
L’ACPF consiste alors à :
Calculer les m éments propres (u1 um)et (λ1λm) de la matrice Q = (W1/2CTC W1/2)/N
Calculer les m composantes principales ξi(s), i=1..m par ξ(s) = Θ(s)T.b.
Calculer comme en ACP classique la contribution de chaque composante principale par le rapport entre
la valeur propre correspondante et la somme des valeurs propres.
Calculer la position de chaque individu (ou courbe x
i(s)) dans le système des composantes principales
par le produit Xε,ε = [ξ1ξm]. Si U = [u1um] et B= [b1bm], alors par définition F = Xε =
(CΘ)(ΘTB) = CWB = CWW-1/2B = CW1/2U.
Les scores de la courbe x
i(s) dans le sysme des m composantes principales sont définies sur la ième ligne de F.
Comme en ACP classique, on se limite à m=2 ou m=3. L’éloignement d’un point par rapport à l’origine traduit
l’écart de la courbe considérée par rapport à la courbe moyenne. Le scalaire f
ij est le score de l’individu i par
rapport à la composante principale j.
Les inrêts de ce type d’analyse sont nombreux :
Les comp osantes principales sont des fonctions, donnant les comportements principaux rencontrés dans
la matrice X
Dans le cas d’analyses temporelles (i.e. les exriences sont des mesures d’un me phénomène à des
temps différents), l’ACPF permet d’analyser des données même si les mesures ne sont pas effectuées
aux mêmes instants pour chaquene (interpolation par les fonctions de base φk)
L’analyse donne une formulation analytique de chaque composante principale fonctionnelle, sous la
forme d’une combinaison liaire des φk.
3 Résultats et discussion
Dans la suite, les fonctions de base φk utilisées sont les fonctions splines cubiques de Cox de Boor N
3i(s), qui
sont rapides à calculer et proposent de bonnes propriétés mathématiques, tant au niveau de la gularité que de
l'interpolation.
3.1 Données simulées
La méthode est tout d’abord testée sur des dones simulées. Suivant le mole proposé dans [13], le niveau
d'expression du gène i au temps j x
ij est modélisé par
x
ij = δij + λj (αi + βi.φ(i,j))
où
φ(i,j) = sin(2πj/8 -2πk/10)
et : αi est le niveau moyen d'expression du ne i (choisi d'après une loi normale N(0,2)), βi est l'amplitude
d'expression du gène i (tiré d'après une loi normale N(3,0.5)). La fonction φ(i,j) modélise les variations cycliques
des données. k est le numéro de la classe, et deux classes difrentes auront donc un phasage différent. λj
contle l'amplitude sur l'expérience j (loi normale N(3,0.5)) et δij représente une erreur exrimentale de mesure
(loi normale N(0,1)).
Nous avons par cette thode une matrice X de dimension 200*10 (200 nes et 10 exriences), et
avons classé ces données par ACPF. Les trois premières composantes principales fonctionnelles expliquent 97%
des variations des courbes, et donnent accès aux variations prédominantes dans les données. En particulier,
puisque les composantes fonctionnelles sont des courbes continues, il est possible par analyse harmonique d'en
extraire les caracristiques principales (amplitude, période). L’analyse des plans de scores fait de plus apparaître
des regroupements nets de points autour des axes principaux fonctionnels (Fig. 1) .
La distance dans le plan des scores entre un point (i.e. une ligne de X) et l’origine traduit l’amplitude de la
variation de la courbe par rapport à la moyenne. La position de ce point par rapport à l’origine donne quant à elle
le sens de la variation par rapport à CPF considérée (signe positif si même variation, et gatif si en opposition
de phase).
Étude de données d’expression par analyse en composantes principales fonctionnelles
JOBIM 2002 345
FIG. 1 Plan des scores des deux pre mières composantes principales fonctionnelles
Nous pensons, tout comme [9] que l’utilisation d’un algorithme de classification comme étape de post-traitement
des données n’est pascessairement obligatoire. Les auteurs de [9] ont en effet mont sur des dones de cycle
cellulaire que les regroupements pertinents des lignes de X n’étaient pas cessairement inclus dans des nuages
de points bienfinis, voire que les nuages de points résultant d’une classification étaient plut arbitraires [4], et
qu’il était peut être plus pertinent de déterminer des relations de voisinage entre les lignes de X, ou en ce qui
nous concerne entre les points dans les plans de score (représentant les profiles des lignes de X). C’est cette
marche que nous avons utili dans la suite.
Fig.2 : composantes principales fonctionnelles et expression des lignes dans les nuages de points : un exemple
pour chaque CPF
3.2 Données réelles : étude du cycle cellulaire de la levure Saccharomyces cerevisiae
L’objectif est maintenant pour nous d’appliquer cette thode aux données du cycle cellulaire de la levure
Saccharomyces cerevisiae [10]. En 1998, la mise à disposition du génome de cette levure a permis de lancer des
études sur les gènes gulateurs de cycle. Des biopuces ont été utilisées pour mesurer l’abondance relative ou
absolue d’ARNm pour chaque gène à difrents temps du cycle cellulaire, après que les cellules aient été
synchronies sur un moment précis du cycle. L'ensemble des informations concernant cette étude est disponible
à l'adresse http://cellcycle-www.stanford.edu/.
Les données dont nous disposons mesurent l’expression relative d'ARNm en fonction du temps dans des cultures
cellulaires synchronies de trois manières indépendantes :
phéromone alpha (pour stopper les cellules MATa dans G1) : deux cycles (données temporelles toutes
les 7 minutes, pendant 119 minutes)
élutriation centrifugée (pour obtenir de petites cellules G1) : un cycle (dones temporelles toutes les 30
minutes, pendant 390 minutes)
mutation sensible à la température, cdc15-2, qui stoppe la méiose à la température critique : 3 cycles
(dones temporelles toutes les 10 minutes, pendant 290 minutes)
Plan CPF1/CPF2
-3
-2 , 5
-2
-1 , 5
-1
-0 , 5
0
0, 5
1
1, 5
2
-4 - 3 -2 - 1 0 1 2 3 4
1 C P F
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
13579
2 CPF
-1,5
-1
-0,5
0
0,5
1
1,5
2
1 3 5 7 9
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
01 2 3 4 5 6 7 8 9 10
CPF1 CPF2 CPF3
3 CPF
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
1 3 5 7 9
V. Barra
JOBIM 2002346
Trois méthodes ont été utilisées car chacune introduit des artefacts propres (par exemple, un choc thermique pour
la dernière). Spellman et al. [10] ont identifié 800 nes régulés par le cycle cellulaire, qui forment nos données
de départ.
L’application de l'ACPF sur ces nes, décrits par les 56 exriences temporelles, prend 1 seconde sur un AMD
Athlon XP 1500+, avec 256 Mo de RAM. Les premiers résultats obtenus sont encourageants vis à vis des
dones de la littérature [3][10][12], et doivent maintenant être spécifiquement analysés par des spécialistes de la
levure : par exemple, nous retrouvons une composante fonctionnelle exhibant une riode de 110 minutes pour
l’expérience synchronisée avec cdc15. Il reste donc à exploiter pleinement la masse de données fournie par
l’ACPF (i.e. composantes principales fonctionnelles, analyse dans le plan des score qui donne le comportement
desnes vis à vis du cycle). Là encore, nous pensons d’abord utiliser des relations de voisinage dans l’espace
des scores plut quun algorithme de classification délimitant des nuages de points bien définis.
L'ACPF est une technique d'analyse du transcriptome inressante, surtout dans le cas de l'étude de dones
temporelles, puisqu'elle peut prendre en compte les cas où ces dernières sont acquises de façon irrégulière (les
données étant traitées comme des courbes continues dépendant d'un paramètre). De plus, dans le cas temporel, il
est également possible de traiter des données manquantes, lorsque celles-ci sont peu nombreuses pour un gène
donné (interpolation à l'aide des fonctions de base φ
k). Tous ces aspects pondent en particulier aux probmes
déjà soulevés quant à l'application de l'analyse en composantes principales classique pour l'étude du
transcriptome ([9]).
L'ACPF permet également de décrire de manière analytique les composantes principales fonctionnelles, par
l'interdiaire de leur décomposition dans la base des φ
k. Les profils des gènes, comme les composantes
principales fonctionnelles, sont alors des courbes de la variable réelle s et peuvent être analysées par des outils
classiques (analyse harmonique, ondelettes), afin d'en extraire les paramètres caracristiques (par exemple
fréquence de cycle cellulaire de 110 minutes obtenue sur les dones de la levure).
Outre l'étude du cycle cellulaire, nous poursuivons au laboratoire l'application de l'ACPF sur d'autres données
publiques : nous menons par exemple une étude sur les dones de sporulation de la levure du boulanger [4] et
les sultats sont -aussi encourageants et en cours de publication [1].
Références
[1] BARRA (V.), Analysis of gene expression data using functional principal components, Bioinformatics
(soumis )
[2] BEN-DOR (A.), SHAMIR (R.), YAKHINI (Z.), Clustering Gene Expression Patterns, Journal of
Computational Biology, 6, pp 281-297 , 1999.
[3] CHO (R.J.), CAMPBELL (M.J.), WINZELER (E.A.), STEINMETZ (L.), CONWAY (A.), WODICKA (L.),
WOLFSBER (T.G.), GABRIELIAN (A.E.), LANDSMAN (D.), LOCKHART (D.J.), ET AL., A genome-wide
transcriptional analysis of the mitotic-cell cycle, Mol Cell, 2, pp 65-73, 1998.
[4] CHU (S.), DERISI (J.), EISEN (M.), MULHOLLAND (J.), BOTSTEIN (D.), BROWN (P.O.), HERSKOWITZ (I.),
The transcriptional program of sporulation in budding yeast, Science, 282, pp 699-705, 1998.
[5] CRESCENZI (M.), GIULIANI (A.), The main biological determinants of tumor line taxonomy elucidated by a
principal component analysis of microarray data, FEBS Letters, 507, pp 114-118, 2001.
[6] DHAESELLER (P.), LIANG (J.), SOMOGYI (R.), Genetic Network inference: from co-expression clustering
to reverse engineering , Bioinformatics, 16-8, pp 707-726, 2000.
[7] DUNTEMAN (G. H) Principal Components Analysis. Sage Publications, 1989
[8] RAMSAY (J.), SILVERMAN (B.), Functional Data Analysis, Springer-Verlag, 1997.
[9] RAYCHAUDHURI (S.), STUART (J.M.), ALTMAN (R. B.), Principal components analysis to summarize
microarray experiments: application to sporulation time series. In Pacific Symposium on Biocomputing,
vol. 5, 2000.
[10] SPELLMAN (P.T.), SHERLOCK (G.), ZHANG (M.Q.), IYER (V.R.), EISEN (M..B.), BROWN (P.O.), BOTSTEIN
(D.), FUTCHER (B.), Comprehensive identification of Cell-Cycle-regulated genes of the Yeast
Saccharomyces cerevisiae by microarray hybridization, Molecular Biology of the Cell, 9, pp 3273-3297,
1998.
[11] TAMAYO (P.), SLONIM (D.), MESIROV (J.), ZHU (Q.), KITAREEWAN (S.), DMITROVSKY (E.), LANDER (E.),
GOLUB (T.), Interpreting patterns of gene expression with self-organizing maps: Methods and application
to hematopoietic differentiation, Proc. Natl. Acad. Sci. USA, 96, pp. 29072912, 1999.
[12] TAVAZOIE (S.), HUGHES (J.D.), CAMPBELL (M.J.), CHO (R.J.), CHURCH (G.M.), Systematic determination
of genetic network architecture, Nature Genetics, 22, pp 281-285, 1999.
[13] YEUNG (K.Y.), Principal Component Analysis for clustering gene expression data, Technical Report UW-
CSE-2000-11-03, Department of Computer Science & Engineering, University of Washington, Seattle,
2000.
Étude de données d’expression par analyse en composantes principales fonctionnelles
JOBIM 2002 347
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !