Analyse des données incomplètes avec l`application aux

Analyse des données incomplètes avec l’application aux
expériences biopuces
Basavanneppa Tallur
IRISA-IFSIC,
Université de Rennes l,
Avenue Général Leclerc, Campus de Beaulieu,
35042 RENNES CEDEX, France
mél :[email protected]
RÉSUMÉ. La technologie des bio-puces permet aux biologistes d’effectuer des expériences sur plusieurs milliers de
gènes simultanément dans des conditions variées. Mais souvent il manque certaines mesures à cause des limitations
matérielles, et il arrive que un certain nombre de mesures, n’étant pas de qualité suffisante, sont considérées comme
manquantes. Dans ces conditions la solution consiste souvent à remplacer de telles données par des valeurs
estimées ou même, dans certains cas, à supprimer les gènes ou les échantillons (« arrays ») comportant des données
manquantes. D’autre part, les travaux récents dans le domaine de la bioinformatique ([ALT 00], [LEE 03], [MAO
03], [GIR 04], …) montre que le modèle factoriel permet une interprétation en terme des processus biologiques.
Nous proposons ici, une méthode d’estimation itérative des données manquantes, optimale en vue d’une analyse
factorielle, qui peut aussi être utilisée préalablement à une classification hiérarchique, notamment par la méthode
A.B.C ([TAL 88]), qui utilise une représentation des données par le nuage des profils à la manière de l’
AFC (Analyse Factorielle des Correspondances).
MOTS-CLÉS : biopuces, expression génomique, données manquantes, analyse factorielle, classification
1
Introduction
L’énorme progrès réalisé dans les domaines de la technologie bio-puces à ADN (DNA microarray) et le
séquençage de génome permet aujourd’hui aux biologistes de mesurer le niveau d’expression à l’échelle
d’un génome entier. L’analyse de ces données est précieuse pour la connaissance fondamentale de la vie
au niveau moléculaire depuis la régulation de l’expression des gènes et leurs fonctions aux mécanismes
cellulaires. Parmi les outils statistiques utilisés pour l’analyse de telles données, on peut citer la
classification (cluster analysis) rendue « populaire » par les travaux d’Eisen ([EIS 98]). On peut citer
parmi de nombreux articles de synthèses sur l’application de l’analyse classificatoire aux données de
l’expression, celui de W. Shannon [SHA 03] qui contient une riche bibliographie. Nous avons souligné
divers problèmes que l’on est amené à résoudre avant d’utiliser de telles méthodes ([TAL 03]). Il s’agit du
prétraitement des données issues des expériences bio-puces consistant notamment en la « normalisation »,
la « standardisation » et le traitement des données manquantes. Des travaux récents montrent l’intérêt des
méthodes factorielles telles que l’ACP (Analyse en Composantes Principales) ([ALT 00]), l’ACP
probabiliste (Probabilistic PCA) ([TIP 97]) et une version généralisée de l’ACP - Analyse en
composantes indépendantes (Independent Component Analysis ou ICA) - ([ROB 03]). Les
« composantes » ou facteurs identifieraient les processus biologiques qui contribuent aux profils
d’expression observés, en rendant les facteurs biologiquement interprétables. Mark Girolami propose une
approche variante de l’ICA ([GIR 04]) en considérant que chaque profil d’expression est une combinaison
linéaire de plusieurs profils d’expression « prototypes » ou des processus physiologiques. Ces derniers
travaux justifient suffisamment l’emploi des méthodes factorielles telles que l’ACP et l’AFC (après
transformation des données) conjointement avec la classification. Les expériences bio-puces comportent
plus ou moins de données manquantes pour diverses raisons : résolution de l’image insuffisante, image
polluée, ou simplement à cause de la poussière ou égratignure des plaques. Quelle que soit la méthode
d’analyse employée, les données manquantes posent un problème sérieux car toutes ces méthodes
nécessitent les données complètes. Il existe des solutions plus ou moins raffinées à ce problème telles que
par exemple : remplacer les données manquantes par des zéros, par les moyennes (ou la médiane) de la
ligne (ou de la colonne), ou par la moyennes des k plus proches voisins, etc.. Dans cet article nous
abordons le problème des données manquantes et proposons une méthode itérative d’estimation (ou
d’imputation) afin de pouvoir obtenir des facteurs ou une classification hiérarchique aussi fidèlement que
possible.
2
Représentation des données et notations
Les données de l’expression se présentent sous forme d’un tableau croisant les n gènes (lignes) et p
échantillons (ou conditions expérimentales appelés « arrays »). Dans l’ACP normée, les données sont
centrées et réduites et chaque gène est représenté par un vecteur de l’espace de dimension p muni de la
distance euclidienne usuelle. Analyse des correspondances, bien que développée dans le cadre d’un
tableau de contingence, est tout à fait applicable au tableau des valeurs positives, surtout lorsqu’elles sont
toutes exprimées dans la même unité. On considère alors, le nuage des profils lignes et celui des profils
colonnes, munis d’une distance du Chi-deux.
Soit xij le niveau d’expression du gène i dans l’échantillon j (i=1, …, n ; j=1, …, p). Avec les notations
habituelles, on notera les sommes marginales xi. et x.j
La formule de reconstitution des données, bien connue, à l’ordre s (c.à.d. avec les s premiers facteurs) est
s

x x 
xij = i . x. j 1 + ∑ λα−1 / 2 Fα (i )Gα ( j ) 
∑ ij  α =1

i, j
où λα sont des valeurs propres, Fα et Gα sont des facteurs lignes et facteurs colonnes, respectivement.
3
Méthode d’estimation itérative
Nous avons proposé une méthode itérative d’estimation des données manquantes en vue d’une AFC basée
sur la formule de reconstitution des données à partir des facteurs ([TAL 73]). En fait, le problème est
apparu lors d’une expérience en biologie sur les récepteurs olfactifs. Il était impossible, pour des raisons
matérielles et techniques de mesurer toutes les réponses en chacun des points du récepteur à tous les
stimulii. Nous avons donc simulé les « trous » dans un tableau des mesures connues de deux façons
différentes :
• Les trous sont répartis de façon aléatoire
• Les trous sont planifiés suivant un plan d’expérience
En faisant varier le taux de données « manquantes », on a reconstitué les facteurs après avoir estimé les
données par la méthode proposée. Dans un tableau de dimension 121 X 20, on a pu pratiquement
reconstituer les 5 premiers facteurs (avec une corrélation de plus de 0.90) jusqu’à 20% des données
manquantes aléatoirement et jusqu’à 25% des données manquantes planifiées.
L’algorithme peut se résumer comme ci-dessous :
1. Initialisation: on remplace les valeurs inconnues par des zéros et on fixe la valeur maximum smax
du paramètre s, l’ordre d’estimation
2. On pose s=0 ; on fait une estimation des données manquantes à l’ordre 0 (qui consiste à
appliquer la formule de reconstitution ci-dessus avec s=0, càd, sans aucun facteur ); les valeurs
inconnues sont remplacées par leurs estimations
3. On répète (2) jusqu’à convergence
4. on incrémente s → s+1
5. On calcule les s premiers axes de l’AFC du tableau précédent (calcul de λα, Fα et Gα, pour α=1,
.., s)
6. On remplace les données manquantes par leurs estimations à l’ordre s
7. On répète (4), (5) et (6) jusqu’à convergence
8. Si s = smax on arrête, sinon on retourne à l’étape 4.
On constate expérimentalement que la convergence pour chaque valeur de s est très rapide. La qualité de
l’estimation est évaluée en comparant les facteurs estimés avec les facteurs « réels » (obtenus avec les
données complètes). Cette méthode est tout à fait applicable aux données de l’expression et donne des
résultats comparables à ceux obtenus sur des données des récepteurs olfactifs.
4
Validation des résultats
En vue d’évaluer la performance de la méthode d’estimation proposée en fonction du nombre de données
manquantes, nous avons réalisé plusieurs expériences en supprimant, dans un tableau des données
complètes, un certain pourcentage d’observations au hasard. Le taux des valeurs manquantes a été
progressivement augmenté jusqu’à 20% des données. Les facteurs issus du tableau complet ont été
comparés à ceux obtenus à partir des données estimées à l’aide des coefficients de corrélation linéaire
entre les facteurs de même rang. Dans tous les cas testés, le coefficient de corrélation reste très forte pour
les 5 premiers facteurs (par exemple, nous avons trouvé une corrélation supérieure à 0,95 pour un tableau
comportant une centaines de lignes et une vingtaine de colonnes).
5
Conclusion et perspectives
La méthode pour estimer les données manquantes, que nous avons proposée et expérimentée sur des
données d’une expérience en biologie est simple et efficace. Elle est tout à fait utilisable non seulement en
vue de l’analyse factorielle (ACP ou AFC), mais aussi pour la classification hiérarchique par l’Agrégation
Basée sur la Corrélation (ABC, [TAL 88]). Il reste à l’évaluer massivement sur des données plus
importantes. Nous avons également implémenté une méthode d’estimation adaptée aux données
standardisée (par exemple, celles de l’expression génomique), qui est basée sur la formule de
reconstitution des données à partir des axes principaux d’inertie et de composantes principales de l’ACP
normée.
6
Bibliographie
[ALT 00] ALTER O., BROWN P., BOTSTEIN D., “Singular value decomposition for genome-wide
expression data processing and modeling”, PNAS, vol. 97, n° 18, 2000, p. 10101-10106
[GIR 04] GIROLAMI M., BREITLING R., « Biologically valid linear factor models of gene
expression », Bioinformatics, vol. 20, n° 17, 2004, p. 3021-3033.
[EIS 98] EISEN M., SPELLMAN P., BROWN PO. et al., « Cluster analysis and display of genome-wide
expression patterns », PNAS, vol. 95, 1998, p. 14863-14868.
[LEE 03] LEE S.I., BATZOGLOU S., « Application of independent component analysis to microarrays»,
Genome Biol., vol. 4, R76.
[MAO 03] MAO R., ZIELKE CL., ZIELKE HR., PEVNSER J., “Global upregulation of chromosome 21
gene expression in the developing Down syndrome brain”, Genomics, vol. 81, p. 457-467.
[ROB 01] ROBERTS S., EVERSON R. (eds), «Independent component analysis Principles and
practice », 2001, Cambridge university press, Cambridge.
[SHA 03] SHANNON W., CULVERHOUSE R., DUNCAN J., « Analyzing microarray data using
cluster analysis », Pharmacogenomics, vol. 4, n° 1, 2003, p. 41-51.
[TAL 03] TALLUR B., « Analyse des données de l’expression génomique par la classification : pourquoi
et comment ?», Méthodes et perspectives en classification, 2003, Dodge Y., Melfi G. (eds), Press
académique de Neuchâtel.
[TAL 73] TALLUR B., « Analyse des correspondances en cas de données manquantes: application en
biologie», Thèse Doctorat de 3ème cycle, Université de Paris 6, 1973.
[TAL 88] TALLUR B., « Contribution à l’analyse exploratoire de tableaux de contingence par la
classification », Thèse, Doctorat ès sciences Mathématique, Université de Rennes1, 1988.
[TRO 01] TROYANSKAYA O., CANTOR M., SHERLOCK G., BROWN P., HASTIE T., TIBSHIRANI
R., BOTSTEIN D., ALTMAN R., «Missing value estimation methods for DNA microarrays»,
Bioinformatics, vol. 17, n° 6, 2001, p. 520-525.