2. On pose s=0 ; on fait une estimation des données manquantes à l’ordre 0 (qui consiste à
appliquer la formule de reconstitution ci-dessus avec s=0, càd, sans aucun facteur ); les valeurs
inconnues sont remplacées par leurs estimations
3. On répète (2) jusqu’à convergence
4. on incrémente s → s+1
5. On calcule les s premiers axes de l’AFC du tableau précédent (calcul de λα, Fα et Gα, pour α=1,
.., s)
6. On remplace les données manquantes par leurs estimations à l’ordre s
7. On répète (4), (5) et (6) jusqu’à convergence
8. Si s = smax on arrête, sinon on retourne à l’étape 4.
On constate expérimentalement que la convergence pour chaque valeur de s est très rapide. La qualité de
l’estimation est évaluée en comparant les facteurs estimés avec les facteurs « réels » (obtenus avec les
données complètes). Cette méthode est tout à fait applicable aux données de l’expression et donne des
résultats comparables à ceux obtenus sur des données des récepteurs olfactifs.
4 Validation des résultats
En vue d’évaluer la performance de la méthode d’estimation proposée en fonction du nombre de données
manquantes, nous avons réalisé plusieurs expériences en supprimant, dans un tableau des données
complètes, un certain pourcentage d’observations au hasard. Le taux des valeurs manquantes a été
progressivement augmenté jusqu’à 20% des données. Les facteurs issus du tableau complet ont été
comparés à ceux obtenus à partir des données estimées à l’aide des coefficients de corrélation linéaire
entre les facteurs de même rang. Dans tous les cas testés, le coefficient de corrélation reste très forte pour
les 5 premiers facteurs (par exemple, nous avons trouvé une corrélation supérieure à 0,95 pour un tableau
comportant une centaines de lignes et une vingtaine de colonnes).
5 Conclusion et perspectives
La méthode pour estimer les données manquantes, que nous avons proposée et expérimentée sur des
données d’une expérience en biologie est simple et efficace. Elle est tout à fait utilisable non seulement en
vue de l’analyse factorielle (ACP ou AFC), mais aussi pour la classification hiérarchique par l’Agrégation
Basée sur la Corrélation (ABC, [TAL 88]). Il reste à l’évaluer massivement sur des données plus
importantes. Nous avons également implémenté une méthode d’estimation adaptée aux données
standardisée (par exemple, celles de l’expression génomique), qui est basée sur la formule de
reconstitution des données à partir des axes principaux d’inertie et de composantes principales de l’ACP
normée.
6 Bibliographie
[ALT 00] ALTER O., BROWN P., BOTSTEIN D., “Singular value decomposition for genome-wide
expression data processing and modeling”, PNAS, vol. 97, n° 18, 2000, p. 10101-10106
[GIR 04] GIROLAMI M., BREITLING R., « Biologically valid linear factor models of gene
expression », Bioinformatics, vol. 20, n° 17, 2004, p. 3021-3033.
[EIS 98] EISEN M., SPELLMAN P., BROWN PO. et al., « Cluster analysis and display of genome-wide
expression patterns », PNAS, vol. 95, 1998, p. 14863-14868.
[LEE 03] LEE S.I., BATZOGLOU S., « Application of independent component analysis to microarrays»,
Genome Biol., vol. 4, R76.
[MAO 03] MAO R., ZIELKE CL., ZIELKE HR., PEVNSER J., “Global upregulation of chromosome 21
gene expression in the developing Down syndrome brain”, Genomics, vol. 81, p. 457-467.