UNIVERSITE DE NANTES
FACULTE DE MEDECINE
De l’Acquisition des Données de Puces à
ADN vers leur Interprétation : Importance
du Traitement des Données Primaires
THESE DE DOCTORAT
Ecole Doctorale CHIMIE BIOLOGIE
Discipline Sciences de la Vie et de la Santé
Spécialité Bio-informatique
Présentée
et soutenue publiquement par
LE MEUR Nolwenn
Le 13 juin 2005, devant le jury ci-dessous
Président M. ESCANDE Denis, Professeur, Université de Nantes
Rapporteurs M. FROIDEVAUX Christine, Professeur, Université Paris Sud
M. LOREAL Olivier, Chargé de Recherche, Université de Rennes I
Examinateur M. GENTLEMAN Robert, Professeur, Université de Washington
Directeur de thèse M. LEGER Jean, Directeur de Recherche, Université de Nantes
TITRE : De l’acquisition des données de puces à ADN vers leur interprétation : importance
du traitement des données primaires.
Les outils bio-informatiques sont devenus indispensables aux traitements et à l’analyse des
données de puces à ADN. De l’extraction des données primaires par les logiciels d’analyse
d’images à la recherche des réseaux moléculaires en passant par la normalisation et la
validation des données, les méthodes mathématiques et statistiques sont incontournables. Ce
travail s’intéresse aux méthodes d’analyse d’images des puces à ADN, à la métrologie et à la
transformation des données primaires en données « consolidées ». Au cours de cette étude, un
service Web nommé MADSCAN (MicroArray Data Suite of Computed Analysis) a été
développé pour traiter les données primaires d’expression. Cet outil permet de filtrer,
normaliser et valider statistiquement les données primaires. Les enjeux suivants sont l’analyse
(mise en évidence des gènes d’intérêts, méthodes de classifications) et l’intégration des
données d’expression avec les méta-données (ontologies, littérature…) pour une meilleure
compréhension des mécanismes de fonctionnement des gènes.
MOTS CLES Puce à ADN, Transcriptome, Bio-informatique, Traitement des données,
Analyse des données, Intégration des données, langage R
TITLE: From microarray data acquisition to their interpretation: the importance of raw data
processing.
Bioinformatic tools have become essential for microarray processing. From raw data
extraction by image analysis software to the research of molecular networks via data
normalization and validation, mathematical and statistical methods are crucial. This work
deals with the performance of microarray image analysis software, with metrology and the
transformation of raw microarray data to consolidated gene expression data matrices. A Web
service, MADSCAN (MicroArray Data Suite of Computed Analysis) has been developed to
process raw expression data. This tool filters, normalizes, and statistically validates raw data.
The next challenges are the analysis (molecular marker identification, classification
approaches) and the integration of expression data with metadata (ontology, literature…) for a
better understanding of gene mechanisms.
KEYWORDS :Microarray, Transcriptome, Bioinformatic, Data processing, Data analysis,
Data integration, R language
LE MEUR Nolwenn
Unité INSERM U533
Faculté de Médecine
1, rue Gaston Veil
44035 Nantes cedex 1, France
J’exprime toute ma reconnaissance à Monsieur Jean Léger pour m’avoir accueillie il y
a quatre ans au sein de l’équipe Génomique fonctionnelle de l’unité INSERM U533, pour la
confiance qu’il m’a accordé et sa passion pour la recherche qu’il a su partager.
Je tiens à adresser mes plus sincères remerciements à Monsieur Olivier Loréal et
Madame Christine Froidevaux, pour avoir accepté de juger et critiquer ce travail en
assumant les rôles de rapporteurs ; ainsi qu’à Monsieur Robert Gentleman d’assumer le rôle
d’examinateur, et Monsieur Denis Escande de présider ce jury.
Je remercie chaleureusement Audrey Bihouée, Raluca Teusan, Guillaume Lamirault,
et Gérard Ramstein pour leurs précieux conseils et leur participation essentielle à ce travail.
Je tiens également à remercier Martine Le Cunff, Isabelle Guisle, Marja Steenman et
Hélène Bédrine-Ferran pour leur soutien en ayant accepté d’être les « cobayes » de mes
premiers essais en bio-informatiques.
Merci à Catherine Chevalier, Lise Caron et Alice Le Bars pour les discussions que
nous avons pu avoir.
Enfin, je tiens également à remercier tous les membres de l’unité U533 pour leur
accueil chaleureux et leur sympathie.
Table des matières
Table des matières
AVANT PROPOS ................................................................................................................... 1
CHAPITRE I. BASES BIOLOGIQUES ET BIO-INFORMATIQUES ............................. 2
I. AVENEMENT DE LA GENOMIQUE FONCTIONNELLE ET PUCES A ADN................................... 2
1. Séquençage des génomes ............................................................................................... 2
1.1 Historique................................................................................................................. 2
1.2 Conséquences ........................................................................................................... 4
1.3 Prochain enjeu ......................................................................................................... 4
2. Etude du transcriptome................................................................................................... 5
II. PUCES A ADN POUR LETUDE DU TRANSCRIPTOME .......................................................... 7
1. Principe........................................................................................................................... 9
2. Technologies .................................................................................................................. 9
3. “Array of hope”............................................................................................................ 11
III. BIO-INFORMATIQUE ...................................................................................................... 14
1. Définition ..................................................................................................................... 14
2. Historique..................................................................................................................... 15
2.1 Emergence de la bio-informatique......................................................................... 15
2.2 La communauté bio-informatique .......................................................................... 15
3. Outils de la bio-informatique ....................................................................................... 16
3.1 Internet ................................................................................................................... 16
3.2 Le « monde du libre » et open-source .................................................................... 17
IV. BIO-INFORMATIQUE ET PUCES A ADN........................................................................... 20
1. Besoins ......................................................................................................................... 20
2. R et BioConductor........................................................................................................ 22
2.1 Historique............................................................................................................... 22
2.2 Propriétés de R....................................................................................................... 23
2.3 R et la génomique : le projet BioConductor .......................................................... 23
CHAPITRE II. OBTENTION DE DONNEES « CONSOLIDEES » A PARTIR DES
ANALYSES D’IMAGES DE PUCES A ADN..................................................................... 26
I. ACQUISITION ET PROPRIETES DES DONNEES DE PUCES A ADN.......................................... 26
1. Puces à ADN pangénomiques ou dédiées.................................................................... 26
2. Importance du plan expérimental dans l’obtention des données de puce à ADN........ 29
2.1 Variabilités techniques et/ou biologiques .............................................................. 29
2.2 Plan expérimental : mode de comparaison des échantillons................................. 30
3. Acquisition des données d’expression par les logiciels d’analyse d’images ............... 32
II. MADSCAN : HISTORIQUE ET DEVELOPPEMENT DES OUTILS .......................................... 35
1. Ebauche de MADSCAN : macro Excel®.................................................................... 35
2. Outils informatiques..................................................................................................... 36
2.1 Machine.................................................................................................................. 36
2.2 Serveur Web et interfaçage .................................................................................... 36
2.3 Langages de script ................................................................................................. 37
3. Accès sur la Toile......................................................................................................... 38
Table des matières
3.1 MADTOOLS ........................................................................................................... 39
3.2 MADSCAN : service Web....................................................................................... 40
III. MADSCAN : TRAITEMENT DES DONNEES « PRIMAIRES » DE PUCES A ADN................ 42
1. Obtention de données « consolidées » dans les expériences de puces à ADN ............ 42
1.1 Des images aux données d’expression ................................................................... 42
1.2 Article ..................................................................................................................... 47
2. Résumés des articles publiés ou soumis utilisant MADSCAN pour le traitement des
données primaires............................................................................................................. 57
2.1 Portaits moléculaires de patients en insuffisance cardiaque : étude pilote........... 59
2.2 Etude du transcriptome des cellules CaCo-2 au cours de leur différenciation et en
relation avec leur capital ferrique - ............................................................................. 60
2.3 Effet pharmacologique de l’amiodarone sur le remodelage de l’expression des
canaux ioniques du cœur de la souris. ......................................................................... 61
2.4 Le profil d’expression de patients en attente de transplantation cardiaque est
associé avec un remodelage progressif du transcriptome cardiaque. (Article soumis)
...................................................................................................................................... 62
2.5 Profils d’expression des cellules dendritiques en maturation par des puces ADN
dédiées. (Article accepté) ............................................................................................. 64
2.6 Remodelage de l’expression des gènes associée au processus de différenciation de
la lignée cellulaire hépatique bipotente HepaRG. (Article soumis) ............................ 65
3. Etat actuel et évolution de MADSCAN ....................................................................... 68
3.1 Fréquentation......................................................................................................... 68
3.2 Evolution récente.................................................................................................... 68
3.3 Optimisation et futurs développements .................................................................. 69
CHAPITRE III. ANALYSE BIBLIOGRAPHIQUE : EXTRACTION DE
CONNAISSANCES A PARTIR DES DONNEES D’EXPRESSION DE PUCES A ADN
.................................................................................................................................................. 70
I. MISE EN EVIDENCE DES GENES DIFFERENTIELLEMENT EXPRIMES...................................... 70
1. Concepts statistiques .................................................................................................... 71
1.1 Inférence statistique ............................................................................................... 71
1.2 Tests d’hypothèses et p-value................................................................................. 71
1.3 Correction pour tests multiples.............................................................................. 73
2. Tests statistiques........................................................................................................... 76
2.1 Tests paramétriques classiques ou tests t............................................................... 77
2.2 Tests non paramétriques ........................................................................................ 78
2.3 Approche bayésienne.............................................................................................. 82
2.4 ANOVA ................................................................................................................... 83
3. Outils ............................................................................................................................ 84
II. METHODES DE CLASSIFICATION DES DONNEES DEXPRESSION ........................................ 86
1. Définitions.................................................................................................................... 86
2. Formatage des données et mesures de distance ........................................................... 87
2.1 Formatage des matrices d’expression.................................................................... 87
2.2 Mesure de distance................................................................................................. 89
3. Classification non supervisée....................................................................................... 92
3.1 Classification hiérarchique .................................................................................... 92
3.2 Méthodes de partitionnement ................................................................................. 96
3.3 Autres méthodes de regroupements non supervisés............................................... 99
3.4 Validation des regroupements.............................................................................. 100
1 / 283 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !