Analyse des données incomplètes avec l’application aux expériences biopuces Basavanneppa Tallur IRISA-IFSIC, Université de Rennes l, Avenue Général Leclerc, Campus de Beaulieu, 35042 RENNES CEDEX, France mél :[email protected] RÉSUMÉ. La technologie des bio-puces permet aux biologistes d’effectuer des expériences sur plusieurs milliers de gènes simultanément dans des conditions variées. Mais souvent il manque certaines mesures à cause des limitations matérielles, et il arrive que un certain nombre de mesures, n’étant pas de qualité suffisante, sont considérées comme manquantes. Dans ces conditions la solution consiste souvent à remplacer de telles données par des valeurs estimées ou même, dans certains cas, à supprimer les gènes ou les échantillons (« arrays ») comportant des données manquantes. D’autre part, les travaux récents dans le domaine de la bioinformatique ([ALT 00], [LEE 03], [MAO 03], [GIR 04], …) montre que le modèle factoriel permet une interprétation en terme des processus biologiques. Nous proposons ici, une méthode d’estimation itérative des données manquantes, optimale en vue d’une analyse factorielle, qui peut aussi être utilisée préalablement à une classification hiérarchique, notamment par la méthode A.B.C ([TAL 88]), qui utilise une représentation des données par le nuage des profils à la manière de l’ AFC (Analyse Factorielle des Correspondances). MOTS-CLÉS : biopuces, expression génomique, données manquantes, analyse factorielle, classification 1 Introduction L’énorme progrès réalisé dans les domaines de la technologie bio-puces à ADN (DNA microarray) et le séquençage de génome permet aujourd’hui aux biologistes de mesurer le niveau d’expression à l’échelle d’un génome entier. L’analyse de ces données est précieuse pour la connaissance fondamentale de la vie au niveau moléculaire depuis la régulation de l’expression des gènes et leurs fonctions aux mécanismes cellulaires. Parmi les outils statistiques utilisés pour l’analyse de telles données, on peut citer la classification (cluster analysis) rendue « populaire » par les travaux d’Eisen ([EIS 98]). On peut citer parmi de nombreux articles de synthèses sur l’application de l’analyse classificatoire aux données de l’expression, celui de W. Shannon [SHA 03] qui contient une riche bibliographie. Nous avons souligné divers problèmes que l’on est amené à résoudre avant d’utiliser de telles méthodes ([TAL 03]). Il s’agit du prétraitement des données issues des expériences bio-puces consistant notamment en la « normalisation », la « standardisation » et le traitement des données manquantes. Des travaux récents montrent l’intérêt des méthodes factorielles telles que l’ACP (Analyse en Composantes Principales) ([ALT 00]), l’ACP probabiliste (Probabilistic PCA) ([TIP 97]) et une version généralisée de l’ACP - Analyse en composantes indépendantes (Independent Component Analysis ou ICA) - ([ROB 03]). Les « composantes » ou facteurs identifieraient les processus biologiques qui contribuent aux profils d’expression observés, en rendant les facteurs biologiquement interprétables. Mark Girolami propose une approche variante de l’ICA ([GIR 04]) en considérant que chaque profil d’expression est une combinaison linéaire de plusieurs profils d’expression « prototypes » ou des processus physiologiques. Ces derniers travaux justifient suffisamment l’emploi des méthodes factorielles telles que l’ACP et l’AFC (après transformation des données) conjointement avec la classification. Les expériences bio-puces comportent plus ou moins de données manquantes pour diverses raisons : résolution de l’image insuffisante, image polluée, ou simplement à cause de la poussière ou égratignure des plaques. Quelle que soit la méthode d’analyse employée, les données manquantes posent un problème sérieux car toutes ces méthodes nécessitent les données complètes. Il existe des solutions plus ou moins raffinées à ce problème telles que par exemple : remplacer les données manquantes par des zéros, par les moyennes (ou la médiane) de la ligne (ou de la colonne), ou par la moyennes des k plus proches voisins, etc.. Dans cet article nous abordons le problème des données manquantes et proposons une méthode itérative d’estimation (ou d’imputation) afin de pouvoir obtenir des facteurs ou une classification hiérarchique aussi fidèlement que possible. 2 Représentation des données et notations Les données de l’expression se présentent sous forme d’un tableau croisant les n gènes (lignes) et p échantillons (ou conditions expérimentales appelés « arrays »). Dans l’ACP normée, les données sont centrées et réduites et chaque gène est représenté par un vecteur de l’espace de dimension p muni de la distance euclidienne usuelle. Analyse des correspondances, bien que développée dans le cadre d’un tableau de contingence, est tout à fait applicable au tableau des valeurs positives, surtout lorsqu’elles sont toutes exprimées dans la même unité. On considère alors, le nuage des profils lignes et celui des profils colonnes, munis d’une distance du Chi-deux. Soit xij le niveau d’expression du gène i dans l’échantillon j (i=1, …, n ; j=1, …, p). Avec les notations habituelles, on notera les sommes marginales xi. et x.j La formule de reconstitution des données, bien connue, à l’ordre s (c.à.d. avec les s premiers facteurs) est s x x xij = i . x. j 1 + ∑ λα−1 / 2 Fα (i )Gα ( j ) ∑ ij α =1 i, j où λα sont des valeurs propres, Fα et Gα sont des facteurs lignes et facteurs colonnes, respectivement. 3 Méthode d’estimation itérative Nous avons proposé une méthode itérative d’estimation des données manquantes en vue d’une AFC basée sur la formule de reconstitution des données à partir des facteurs ([TAL 73]). En fait, le problème est apparu lors d’une expérience en biologie sur les récepteurs olfactifs. Il était impossible, pour des raisons matérielles et techniques de mesurer toutes les réponses en chacun des points du récepteur à tous les stimulii. Nous avons donc simulé les « trous » dans un tableau des mesures connues de deux façons différentes : • Les trous sont répartis de façon aléatoire • Les trous sont planifiés suivant un plan d’expérience En faisant varier le taux de données « manquantes », on a reconstitué les facteurs après avoir estimé les données par la méthode proposée. Dans un tableau de dimension 121 X 20, on a pu pratiquement reconstituer les 5 premiers facteurs (avec une corrélation de plus de 0.90) jusqu’à 20% des données manquantes aléatoirement et jusqu’à 25% des données manquantes planifiées. L’algorithme peut se résumer comme ci-dessous : 1. Initialisation: on remplace les valeurs inconnues par des zéros et on fixe la valeur maximum smax du paramètre s, l’ordre d’estimation 2. On pose s=0 ; on fait une estimation des données manquantes à l’ordre 0 (qui consiste à appliquer la formule de reconstitution ci-dessus avec s=0, càd, sans aucun facteur ); les valeurs inconnues sont remplacées par leurs estimations 3. On répète (2) jusqu’à convergence 4. on incrémente s → s+1 5. On calcule les s premiers axes de l’AFC du tableau précédent (calcul de λα, Fα et Gα, pour α=1, .., s) 6. On remplace les données manquantes par leurs estimations à l’ordre s 7. On répète (4), (5) et (6) jusqu’à convergence 8. Si s = smax on arrête, sinon on retourne à l’étape 4. On constate expérimentalement que la convergence pour chaque valeur de s est très rapide. La qualité de l’estimation est évaluée en comparant les facteurs estimés avec les facteurs « réels » (obtenus avec les données complètes). Cette méthode est tout à fait applicable aux données de l’expression et donne des résultats comparables à ceux obtenus sur des données des récepteurs olfactifs. 4 Validation des résultats En vue d’évaluer la performance de la méthode d’estimation proposée en fonction du nombre de données manquantes, nous avons réalisé plusieurs expériences en supprimant, dans un tableau des données complètes, un certain pourcentage d’observations au hasard. Le taux des valeurs manquantes a été progressivement augmenté jusqu’à 20% des données. Les facteurs issus du tableau complet ont été comparés à ceux obtenus à partir des données estimées à l’aide des coefficients de corrélation linéaire entre les facteurs de même rang. Dans tous les cas testés, le coefficient de corrélation reste très forte pour les 5 premiers facteurs (par exemple, nous avons trouvé une corrélation supérieure à 0,95 pour un tableau comportant une centaines de lignes et une vingtaine de colonnes). 5 Conclusion et perspectives La méthode pour estimer les données manquantes, que nous avons proposée et expérimentée sur des données d’une expérience en biologie est simple et efficace. Elle est tout à fait utilisable non seulement en vue de l’analyse factorielle (ACP ou AFC), mais aussi pour la classification hiérarchique par l’Agrégation Basée sur la Corrélation (ABC, [TAL 88]). Il reste à l’évaluer massivement sur des données plus importantes. Nous avons également implémenté une méthode d’estimation adaptée aux données standardisée (par exemple, celles de l’expression génomique), qui est basée sur la formule de reconstitution des données à partir des axes principaux d’inertie et de composantes principales de l’ACP normée. 6 Bibliographie [ALT 00] ALTER O., BROWN P., BOTSTEIN D., “Singular value decomposition for genome-wide expression data processing and modeling”, PNAS, vol. 97, n° 18, 2000, p. 10101-10106 [GIR 04] GIROLAMI M., BREITLING R., « Biologically valid linear factor models of gene expression », Bioinformatics, vol. 20, n° 17, 2004, p. 3021-3033. [EIS 98] EISEN M., SPELLMAN P., BROWN PO. et al., « Cluster analysis and display of genome-wide expression patterns », PNAS, vol. 95, 1998, p. 14863-14868. [LEE 03] LEE S.I., BATZOGLOU S., « Application of independent component analysis to microarrays», Genome Biol., vol. 4, R76. [MAO 03] MAO R., ZIELKE CL., ZIELKE HR., PEVNSER J., “Global upregulation of chromosome 21 gene expression in the developing Down syndrome brain”, Genomics, vol. 81, p. 457-467. [ROB 01] ROBERTS S., EVERSON R. (eds), «Independent component analysis Principles and practice », 2001, Cambridge university press, Cambridge. [SHA 03] SHANNON W., CULVERHOUSE R., DUNCAN J., « Analyzing microarray data using cluster analysis », Pharmacogenomics, vol. 4, n° 1, 2003, p. 41-51. [TAL 03] TALLUR B., « Analyse des données de l’expression génomique par la classification : pourquoi et comment ?», Méthodes et perspectives en classification, 2003, Dodge Y., Melfi G. (eds), Press académique de Neuchâtel. [TAL 73] TALLUR B., « Analyse des correspondances en cas de données manquantes: application en biologie», Thèse Doctorat de 3ème cycle, Université de Paris 6, 1973. [TAL 88] TALLUR B., « Contribution à l’analyse exploratoire de tableaux de contingence par la classification », Thèse, Doctorat ès sciences Mathématique, Université de Rennes1, 1988. [TRO 01] TROYANSKAYA O., CANTOR M., SHERLOCK G., BROWN P., HASTIE T., TIBSHIRANI R., BOTSTEIN D., ALTMAN R., «Missing value estimation methods for DNA microarrays», Bioinformatics, vol. 17, n° 6, 2001, p. 520-525.