thèse - Institut Camille Jordan

Téléchargement

Nod’ordre : 126-2014

Université de Lyon

Université Claude Bernard Lyon 1

Institut Camille Jordan

École doctorale InfoMaths

THÈSE

Spécialité mathématiques

en vue d’obtenir le grade de docteur,

présentée et soutenue publiquement par

Alexis Huet

le 27 juin 2014

Méthodes particulaires et vraisemblances pour l’inférence de

modèles d’évolution avec dépendance au contexte

Thèse encadrée par M. Jean Bérard

Mme Anne-Laure Fougères

soutenue après avis de Mme Catherine Matias

M. Eric Moulines

devant la commission d’examen formée de

M. Jean Bérard directeur de thèse

M. Michael Blum examinateur

Mme Anne-Laure Fougères directrice de thèse

M. Nicolas Lartillot examinateur

Mme Catherine Matias rapporteuse

M. Eric Moulines rapporteur

M. Didier Piau examinateur

Résumé

Cette thèse est consacrée à l’inférence de modèles stochastiques d’évolution de l’ADN

avec dépendance au contexte, l’étude portant spéciﬁquement sur la classe de modèles sto-

chastiques RN95+YpR. Cette classe de modèles repose sur un renforcement des taux d’oc-

currence de certaines substitutions en fonction du contexte local, ce qui introduit des

phénomènes de dépendance dans l’évolution des diﬀérents sites de la séquence d’ADN. Du

fait de cette dépendance, le calcul direct de la vraisemblance des séquences observées met

en jeu des matrices de dimensions importantes, et est en général impraticable.

Au moyen d’encodages spéciﬁques à la classe RN95+YpR, nous mettons en évidence de

nouvelles structures de dépendance spatiales pour ces modèles, qui sont associées à l’évolu-

tion des séquences d’ADN sur toute leur histoire évolutive. Ceci rend notamment possible

l’utilisation de méthodes numériques particulaires, développées dans le cadre des modèles

de Markov cachés, aﬁn d’obtenir des approximations consistantes de la vraisemblance re-

cherchée. Un autre type d’approximation de la vraisemblance, basé sur des vraisemblances

composites, est également introduit.

Ces méthodes d’approximation de la vraisemblance sont implémentées au moyen d’un

code en C++. Elles sont mises en œuvre sur des données simulées aﬁn d’étudier empiri-

quement certaines de leurs propriétés, et sur des données génomiques, notamment à des

ﬁns de comparaison de modèles d’évolution.

Mots clefs : modèles d’évolution avec dépendance au contexte, chaînes de Markov ca-

chées, méthodes particulaires, ﬁltre particulaire auxiliaire, vraisemblances composites.

Abstract

This thesis is devoted to the inference of context-dependent evolutionary models of DNA

sequences, and is speciﬁcally focused on the RN95+YPR class of stochastic models. This

class of models is based on the reinforcement of some substitution rates depending on the

local context, which introduces dependence phenomena between sites in the evolution of

the DNA sequence. Because of these dependencies, the direct computation of the likelihood

of the observed sequences involves high-dimensional matrices, and is usually infeasible.

Through encodings speciﬁc to the RN95+YpR class, we highlight new spatial depen-

dence structures for these models, which are related to the evolution of DNA sequences

throughout their evolutionary history. This enables the use of particle ﬁlter algorithms, de-

veloped in the context of hidden Markov models, in order to obtain consistent approxima-

tions of the likelihood. Another type of approximation of the likelihood, based on composite

likelihoods, is also introduced.

These approximation methods for the likelihood are implemented in a C++ program.

They are applied on simulated data to empirically investigate some of their properties, and

on genomic data, especially for comparison of evolutionary models.

Keywords : context-dependent evolutionary models, hidden Markov models, particle

ﬁlter, auxiliary particule ﬁlter, composite likelihood methods.

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

1 / 238 100%

Documents connexes

Règles du théâtre classique au XVIIe siècle

Une loi (8 points) 1 Variables Gaussiennes (12 points)

TD Théorie Bayesienne de la décision 1 El classico 2 Bayes en log

fiche à télécharger

Tournez la page svp

article triage aspect r - e

Cours estimation par maximum de vraisemblance Fichier

Médecine et mathématique, je t`aime moi non plus

2_Cours_Outillage_en_ligne_bis

Le classicisme et ses règles des 3 unités. Vraisemblance

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

thèse - Institut Camille Jordan

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

thèse - Institut Camille Jordan

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib