Trois méthodes ont été utilisées car chacune introduit des artefacts propres (par exemple, un choc thermique pour
la dernière). Spellman et al. [10] ont identifié 800 gènes régulés par le cycle cellulaire, qui forment nos données
de départ.
L’application de l'ACPF sur ces gènes, décrits par les 56 expériences temporelles, prend 1 seconde sur un AMD
Athlon XP 1500+, avec 256 Mo de RAM. Les premiers résultats obtenus sont encourageants vis à vis des
données de la littérature [3][10][12], et doivent maintenant être spécifiquement analysés par des spécialistes de la
levure : par exemple, nous retrouvons une composante fonctionnelle exhibant une période de 110 minutes pour
l’expérience synchronisée avec cdc15. Il reste donc à exploiter pleinement la masse de données fournie par
l’ACPF (i.e. composantes principales fonctionnelles, analyse dans le plan des score qui donne le comportement
des gènes vis à vis du cycle…). Là encore, nous pensons d’abord utiliser des relations de voisinage dans l’espace
des scores plutôt qu’un algorithme de classification délimitant des nuages de points bien définis.
L'ACPF est une technique d'analyse du transcriptome intéressante, surtout dans le cas de l'étude de données
temporelles, puisqu'elle peut prendre en compte les cas où ces dernières sont acquises de façon irrégulière (les
données étant traitées comme des courbes continues dépendant d'un paramètre). De plus, dans le cas temporel, il
est également possible de traiter des données manquantes, lorsque celles-ci sont peu nombreuses pour un gène
donné (interpolation à l'aide des fonctions de base φ
k). Tous ces aspects répondent en particulier aux problèmes
déjà soulevés quant à l'application de l'analyse en composantes principales classique pour l'étude du
transcriptome ([9]).
L'ACPF permet également de décrire de manière analytique les composantes principales fonctionnelles, par
l'intermédiaire de leur décomposition dans la base des φ
k. Les profils des gènes, comme les composantes
principales fonctionnelles, sont alors des courbes de la variable réelle s et peuvent être analysées par des outils
classiques (analyse harmonique, ondelettes), afin d'en extraire les paramètres caractéristiques (par exemple
fréquence de cycle cellulaire de 110 minutes obtenue sur les données de la levure).
Outre l'étude du cycle cellulaire, nous poursuivons au laboratoire l'application de l'ACPF sur d'autres données
publiques : nous menons par exemple une étude sur les données de sporulation de la levure du boulanger [4] et
les résultats sont là -aussi encourageants et en cours de publication [1].
Références
[1] BARRA (V.), Analysis of gene expression data using functional principal components, Bioinformatics
(soumis )
[2] BEN-DOR (A.), SHAMIR (R.), YAKHINI (Z.), Clustering Gene Expression Patterns, Journal of
Computational Biology, 6, pp 281-297 , 1999.
[3] CHO (R.J.), CAMPBELL (M.J.), WINZELER (E.A.), STEINMETZ (L.), CONWAY (A.), WODICKA (L.),
WOLFSBER (T.G.), GABRIELIAN (A.E.), LANDSMAN (D.), LOCKHART (D.J.), ET AL., A genome-wide
transcriptional analysis of the mitotic-cell cycle, Mol Cell, 2, pp 65-73, 1998.
[4] CHU (S.), DERISI (J.), EISEN (M.), MULHOLLAND (J.), BOTSTEIN (D.), BROWN (P.O.), HERSKOWITZ (I.),
The transcriptional program of sporulation in budding yeast, Science, 282, pp 699-705, 1998.
[5] CRESCENZI (M.), GIULIANI (A.), The main biological determinants of tumor line taxonomy elucidated by a
principal component analysis of microarray data, FEBS Letters, 507, pp 114-118, 2001.
[6] D’HAESELLER (P.), LIANG (J.), SOMOGYI (R.), Genetic Network inference: from co-expression clustering
to reverse engineering , Bioinformatics, 16-8, pp 707-726, 2000.
[7] DUNTEMAN (G. H) Principal Components Analysis. Sage Publications, 1989
[8] RAMSAY (J.), SILVERMAN (B.), Functional Data Analysis, Springer-Verlag, 1997.
[9] RAYCHAUDHURI (S.), STUART (J.M.), ALTMAN (R. B.), Principal components analysis to summarize
microarray experiments: application to sporulation time series. In Pacific Symposium on Biocomputing,
vol. 5, 2000.
[10] SPELLMAN (P.T.), SHERLOCK (G.), ZHANG (M.Q.), IYER (V.R.), EISEN (M..B.), BROWN (P.O.), BOTSTEIN
(D.), FUTCHER (B.), Comprehensive identification of Cell-Cycle-regulated genes of the Yeast
Saccharomyces cerevisiae by microarray hybridization, Molecular Biology of the Cell, 9, pp 3273-3297,
1998.
[11] TAMAYO (P.), SLONIM (D.), MESIROV (J.), ZHU (Q.), KITAREEWAN (S.), DMITROVSKY (E.), LANDER (E.),
GOLUB (T.), Interpreting patterns of gene expression with self-organizing maps: Methods and application
to hematopoietic differentiation, Proc. Natl. Acad. Sci. USA, 96, pp. 2907–2912, 1999.
[12] TAVAZOIE (S.), HUGHES (J.D.), CAMPBELL (M.J.), CHO (R.J.), CHURCH (G.M.), Systematic determination
of genetic network architecture, Nature Genetics, 22, pp 281-285, 1999.
[13] YEUNG (K.Y.), Principal Component Analysis for clustering gene expression data, Technical Report UW-
CSE-2000-11-03, Department of Computer Science & Engineering, University of Washington, Seattle,
2000.
Étude de données d’expression par analyse en composantes principales fonctionnelles