Résumé
Cette thèse est consacrée à l’inférence de modèles stochastiques d’évolution de l’ADN
avec dépendance au contexte, l’étude portant spécifiquement sur la classe de modèles sto-
chastiques RN95+YpR. Cette classe de modèles repose sur un renforcement des taux d’oc-
currence de certaines substitutions en fonction du contexte local, ce qui introduit des
phénomènes de dépendance dans l’évolution des différents sites de la séquence d’ADN. Du
fait de cette dépendance, le calcul direct de la vraisemblance des séquences observées met
en jeu des matrices de dimensions importantes, et est en général impraticable.
Au moyen d’encodages spécifiques à la classe RN95+YpR, nous mettons en évidence de
nouvelles structures de dépendance spatiales pour ces modèles, qui sont associées à l’évolu-
tion des séquences d’ADN sur toute leur histoire évolutive. Ceci rend notamment possible
l’utilisation de méthodes numériques particulaires, développées dans le cadre des modèles
de Markov cachés, afin d’obtenir des approximations consistantes de la vraisemblance re-
cherchée. Un autre type d’approximation de la vraisemblance, basé sur des vraisemblances
composites, est également introduit.
Ces méthodes d’approximation de la vraisemblance sont implémentées au moyen d’un
code en C++. Elles sont mises en œuvre sur des données simulées afin d’étudier empiri-
quement certaines de leurs propriétés, et sur des données génomiques, notamment à des
fins de comparaison de modèles d’évolution.
Mots clefs : modèles d’évolution avec dépendance au contexte, chaînes de Markov ca-
chées, méthodes particulaires, filtre particulaire auxiliaire, vraisemblances composites.