De l`Acquisition des Données de Puces à ADN vers leur

UNIVERSITE DE NANTES

FACULTE DE MEDECINE

De l’Acquisition des Données de Puces à

ADN vers leur Interprétation : Importance

du Traitement des Données Primaires

THESE DE DOCTORAT

Ecole Doctorale CHIMIE BIOLOGIE

Discipline Sciences de la Vie et de la Santé

Spécialité Bio-informatique

Présentée

et soutenue publiquement par

LE MEUR Nolwenn

Le 13 juin 2005, devant le jury ci-dessous

Président M. ESCANDE Denis, Professeur, Université de Nantes

Rapporteurs M. FROIDEVAUX Christine, Professeur, Université Paris Sud

M. LOREAL Olivier, Chargé de Recherche, Université de Rennes I

Examinateur M. GENTLEMAN Robert, Professeur, Université de Washington

Directeur de thèse M. LEGER Jean, Directeur de Recherche, Université de Nantes

TITRE : De l’acquisition des données de puces à ADN vers leur interprétation : importance

du traitement des données primaires.

Les outils bio-informatiques sont devenus indispensables aux traitements et à l’analyse des

données de puces à ADN. De l’extraction des données primaires par les logiciels d’analyse

d’images à la recherche des réseaux moléculaires en passant par la normalisation et la

validation des données, les méthodes mathématiques et statistiques sont incontournables. Ce

travail s’intéresse aux méthodes d’analyse d’images des puces à ADN, à la métrologie et à la

transformation des données primaires en données « consolidées ». Au cours de cette étude, un

service Web nommé MADSCAN (MicroArray Data Suite of Computed Analysis) a été

développé pour traiter les données primaires d’expression. Cet outil permet de filtrer,

normaliser et valider statistiquement les données primaires. Les enjeux suivants sont l’analyse

(mise en évidence des gènes d’intérêts, méthodes de classifications) et l’intégration des

données d’expression avec les méta-données (ontologies, littérature…) pour une meilleure

compréhension des mécanismes de fonctionnement des gènes.

MOTS CLES Puce à ADN, Transcriptome, Bio-informatique, Traitement des données,

Analyse des données, Intégration des données, langage R

TITLE: From microarray data acquisition to their interpretation: the importance of raw data

processing.

Bioinformatic tools have become essential for microarray processing. From raw data

extraction by image analysis software to the research of molecular networks via data

normalization and validation, mathematical and statistical methods are crucial. This work

deals with the performance of microarray image analysis software, with metrology and the

transformation of raw microarray data to consolidated gene expression data matrices. A Web

service, MADSCAN (MicroArray Data Suite of Computed Analysis) has been developed to

process raw expression data. This tool filters, normalizes, and statistically validates raw data.

The next challenges are the analysis (molecular marker identification, classification

approaches) and the integration of expression data with metadata (ontology, literature…) for a

better understanding of gene mechanisms.

KEYWORDS :Microarray, Transcriptome, Bioinformatic, Data processing, Data analysis,

Data integration, R language

LE MEUR Nolwenn

Unité INSERM U533

Faculté de Médecine

1, rue Gaston Veil

44035 Nantes cedex 1, France

J’exprime toute ma reconnaissance à Monsieur Jean Léger pour m’avoir accueillie il y

a quatre ans au sein de l’équipe Génomique fonctionnelle de l’unité INSERM U533, pour la

confiance qu’il m’a accordé et sa passion pour la recherche qu’il a su partager.

Je tiens à adresser mes plus sincères remerciements à Monsieur Olivier Loréal et

Madame Christine Froidevaux, pour avoir accepté de juger et critiquer ce travail en

assumant les rôles de rapporteurs ; ainsi qu’à Monsieur Robert Gentleman d’assumer le rôle

d’examinateur, et Monsieur Denis Escande de présider ce jury.

Je remercie chaleureusement Audrey Bihouée, Raluca Teusan, Guillaume Lamirault,

et Gérard Ramstein pour leurs précieux conseils et leur participation essentielle à ce travail.

Je tiens également à remercier Martine Le Cunff, Isabelle Guisle, Marja Steenman et

Hélène Bédrine-Ferran pour leur soutien en ayant accepté d’être les « cobayes » de mes

premiers essais en bio-informatiques.

Merci à Catherine Chevalier, Lise Caron et Alice Le Bars pour les discussions que

nous avons pu avoir.

Enfin, je tiens également à remercier tous les membres de l’unité U533 pour leur

accueil chaleureux et leur sympathie.

Table des matières

AVANT PROPOS ................................................................................................................... 1

CHAPITRE I. BASES BIOLOGIQUES ET BIO-INFORMATIQUES ............................. 2

I. AVENEMENT DE LA GENOMIQUE FONCTIONNELLE ET PUCES A ADN................................... 2

1. Séquençage des génomes ............................................................................................... 2

1.1 Historique................................................................................................................. 2

1.2 Conséquences ........................................................................................................... 4

1.3 Prochain enjeu ......................................................................................................... 4

2. Etude du transcriptome................................................................................................... 5

II. PUCES A ADN POUR L’ETUDE DU TRANSCRIPTOME .......................................................... 7

1. Principe........................................................................................................................... 9

2. Technologies .................................................................................................................. 9

3. “Array of hope”............................................................................................................ 11

III. BIO-INFORMATIQUE ...................................................................................................... 14

1. Définition ..................................................................................................................... 14

2. Historique..................................................................................................................... 15

2.1 Emergence de la bio-informatique......................................................................... 15

2.2 La communauté bio-informatique .......................................................................... 15

3. Outils de la bio-informatique ....................................................................................... 16

3.1 Internet ................................................................................................................... 16

3.2 Le « monde du libre » et open-source .................................................................... 17

IV. BIO-INFORMATIQUE ET PUCES A ADN........................................................................... 20

1. Besoins ......................................................................................................................... 20

2. R et BioConductor........................................................................................................ 22

2.1 Historique............................................................................................................... 22

2.2 Propriétés de R....................................................................................................... 23

2.3 R et la génomique : le projet BioConductor .......................................................... 23

CHAPITRE II. OBTENTION DE DONNEES « CONSOLIDEES » A PARTIR DES

ANALYSES D’IMAGES DE PUCES A ADN..................................................................... 26

I. ACQUISITION ET PROPRIETES DES DONNEES DE PUCES A ADN.......................................... 26

1. Puces à ADN pangénomiques ou dédiées.................................................................... 26

2. Importance du plan expérimental dans l’obtention des données de puce à ADN........ 29

2.1 Variabilités techniques et/ou biologiques .............................................................. 29

2.2 Plan expérimental : mode de comparaison des échantillons................................. 30

3. Acquisition des données d’expression par les logiciels d’analyse d’images ............... 32

II. MADSCAN : HISTORIQUE ET DEVELOPPEMENT DES OUTILS .......................................... 35

1. Ebauche de MADSCAN : macro Excel®.................................................................... 35

2. Outils informatiques..................................................................................................... 36

2.1 Machine.................................................................................................................. 36

2.2 Serveur Web et interfaçage .................................................................................... 36

2.3 Langages de script ................................................................................................. 37

3. Accès sur la Toile......................................................................................................... 38

Table des matières

3.1 MADTOOLS ........................................................................................................... 39

3.2 MADSCAN : service Web....................................................................................... 40

III. MADSCAN : TRAITEMENT DES DONNEES « PRIMAIRES » DE PUCES A ADN................ 42

1. Obtention de données « consolidées » dans les expériences de puces à ADN ............ 42

1.1 Des images aux données d’expression ................................................................... 42

1.2 Article ..................................................................................................................... 47

2. Résumés des articles publiés ou soumis utilisant MADSCAN pour le traitement des

données primaires............................................................................................................. 57

2.1 Portaits moléculaires de patients en insuffisance cardiaque : étude pilote........... 59

2.2 Etude du transcriptome des cellules CaCo-2 au cours de leur différenciation et en

relation avec leur capital ferrique - ............................................................................. 60

2.3 Effet pharmacologique de l’amiodarone sur le remodelage de l’expression des

canaux ioniques du cœur de la souris. ......................................................................... 61

2.4 Le profil d’expression de patients en attente de transplantation cardiaque est

associé avec un remodelage progressif du transcriptome cardiaque. (Article soumis)

...................................................................................................................................... 62

2.5 Profils d’expression des cellules dendritiques en maturation par des puces ADN

dédiées. (Article accepté) ............................................................................................. 64

2.6 Remodelage de l’expression des gènes associée au processus de différenciation de

la lignée cellulaire hépatique bipotente HepaRG. (Article soumis) ............................ 65

3. Etat actuel et évolution de MADSCAN ....................................................................... 68

3.1 Fréquentation......................................................................................................... 68

3.2 Evolution récente.................................................................................................... 68

3.3 Optimisation et futurs développements .................................................................. 69

CHAPITRE III. ANALYSE BIBLIOGRAPHIQUE : EXTRACTION DE

CONNAISSANCES A PARTIR DES DONNEES D’EXPRESSION DE PUCES A ADN

.................................................................................................................................................. 70

I. MISE EN EVIDENCE DES GENES DIFFERENTIELLEMENT EXPRIMES...................................... 70

1. Concepts statistiques .................................................................................................... 71

1.1 Inférence statistique ............................................................................................... 71

1.2 Tests d’hypothèses et p-value................................................................................. 71

1.3 Correction pour tests multiples.............................................................................. 73

2. Tests statistiques........................................................................................................... 76

2.1 Tests paramétriques classiques ou tests t............................................................... 77

2.2 Tests non paramétriques ........................................................................................ 78

2.3 Approche bayésienne.............................................................................................. 82

2.4 ANOVA ................................................................................................................... 83

3. Outils ............................................................................................................................ 84

II. METHODES DE CLASSIFICATION DES DONNEES D’EXPRESSION ........................................ 86

1. Définitions.................................................................................................................... 86

2. Formatage des données et mesures de distance ........................................................... 87

2.1 Formatage des matrices d’expression.................................................................... 87

2.2 Mesure de distance................................................................................................. 89

3. Classification non supervisée....................................................................................... 92

3.1 Classification hiérarchique .................................................................................... 92

3.2 Méthodes de partitionnement ................................................................................. 96

3.3 Autres méthodes de regroupements non supervisés............................................... 99

3.4 Validation des regroupements.............................................................................. 100

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

De l`Acquisition des Données de Puces à ADN vers leur

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

De l`Acquisition des Données de Puces à ADN vers leur

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib