Nod’ordre : 126-2014
Université de Lyon
Université Claude Bernard Lyon 1
Institut Camille Jordan
École doctorale InfoMaths
THÈSE
Spécialité mathématiques
en vue d’obtenir le grade de docteur,
présentée et soutenue publiquement par
Alexis Huet
le 27 juin 2014
Méthodes particulaires et vraisemblances pour l’inférence de
modèles d’évolution avec dépendance au contexte
Thèse encadrée par M. Jean Bérard
Mme Anne-Laure Fougères
soutenue après avis de Mme Catherine Matias
M. Eric Moulines
devant la commission d’examen formée de
M. Jean Bérard directeur de thèse
M. Michael Blum examinateur
Mme Anne-Laure Fougères directrice de thèse
M. Nicolas Lartillot examinateur
Mme Catherine Matias rapporteuse
M. Eric Moulines rapporteur
M. Didier Piau examinateur
Résumé
Cette thèse est consacrée à l’inférence de modèles stochastiques d’évolution de l’ADN
avec dépendance au contexte, l’étude portant spécifiquement sur la classe de modèles sto-
chastiques RN95+YpR. Cette classe de modèles repose sur un renforcement des taux d’oc-
currence de certaines substitutions en fonction du contexte local, ce qui introduit des
phénomènes de dépendance dans l’évolution des différents sites de la séquence d’ADN. Du
fait de cette dépendance, le calcul direct de la vraisemblance des séquences observées met
en jeu des matrices de dimensions importantes, et est en général impraticable.
Au moyen d’encodages spécifiques à la classe RN95+YpR, nous mettons en évidence de
nouvelles structures de dépendance spatiales pour ces modèles, qui sont associées à l’évolu-
tion des séquences d’ADN sur toute leur histoire évolutive. Ceci rend notamment possible
l’utilisation de méthodes numériques particulaires, développées dans le cadre des modèles
de Markov cachés, afin d’obtenir des approximations consistantes de la vraisemblance re-
cherchée. Un autre type d’approximation de la vraisemblance, basé sur des vraisemblances
composites, est également introduit.
Ces méthodes d’approximation de la vraisemblance sont implémentées au moyen d’un
code en C++. Elles sont mises en œuvre sur des données simulées afin d’étudier empiri-
quement certaines de leurs propriétés, et sur des données génomiques, notamment à des
fins de comparaison de modèles d’évolution.
Mots clefs : modèles d’évolution avec dépendance au contexte, chaînes de Markov ca-
chées, méthodes particulaires, filtre particulaire auxiliaire, vraisemblances composites.
4
Abstract
This thesis is devoted to the inference of context-dependent evolutionary models of DNA
sequences, and is specifically focused on the RN95+YPR class of stochastic models. This
class of models is based on the reinforcement of some substitution rates depending on the
local context, which introduces dependence phenomena between sites in the evolution of
the DNA sequence. Because of these dependencies, the direct computation of the likelihood
of the observed sequences involves high-dimensional matrices, and is usually infeasible.
Through encodings specific to the RN95+YpR class, we highlight new spatial depen-
dence structures for these models, which are related to the evolution of DNA sequences
throughout their evolutionary history. This enables the use of particle filter algorithms, de-
veloped in the context of hidden Markov models, in order to obtain consistent approxima-
tions of the likelihood. Another type of approximation of the likelihood, based on composite
likelihoods, is also introduced.
These approximation methods for the likelihood are implemented in a C++ program.
They are applied on simulated data to empirically investigate some of their properties, and
on genomic data, especially for comparison of evolutionary models.
Keywords : context-dependent evolutionary models, hidden Markov models, particle
filter, auxiliary particule filter, composite likelihood methods.
1 / 238 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !