PROPOSITION DE THESE SIGLE ET NOM DU LABORATOIRE : INSERM UMRS 872, EQUIPE 7 « NUTRIOMIQUE » NOM DE L’EQUIPE : NUTRIOMIQUE ADRESSE : 15, RUE DE L’ECOLE DE MEDECINE, 75006 PARIS TITRE DE LA THESE : METHODES DE CLASSIFICATION ET CALCUL DE COUVERTURE DE MARKOV POUR L’IDENTIFICATION DE CIBLES A PARTIR DE DONNEES POST-GENOMIQUES : APPLICATION A LA GENETIQUE DE L'OBESITE DIRECTEUR DE THESE : PR JEAN-DANIEL ZUCKER CO-ENCADRANT EVENTUEL : DR BLAISE HANCZAR EQUIPE : INSERM UMRS 872, EQUIPE 7 « NUTRIOMIQUE » PRESENTATION DU SUJET Les puces à ADN (ou biopuces) permettent de mesurer l'expression de plusieurs milliers de gènes simultanément à travers différentes conditions expérimentales. L'une des principales approches d'analyse sont les méthodes de classification qui consistent à regrouper les gènes ayant un comportement similaire sur l'ensemble des conditions expérimentales ainsi que les approches de prédiction à partir de données puces. Ainsi de nombreux algorithmes comme les SVM, les forêts d’arbres aléatoires, les arbres de décisions, etc. permettent dans un certain nombre de domaines d’applications de produire des classeurs dont les performances en généralisation sont bonnes. C’est le cas notamment sur des données produites par l'équipe Nutriomique de l’unité INSERM UMRS UPMC/U872 Eq7 correspondant à des cinétiques au départ, pendant et après un régime hypocalorique. Dans le cadre de plusieurs projets ANR et européens, l’équipe NUTRIOMIQUE a accès à des données de patients obèses qui sont suivis pendant plusieurs mois lors de régimes. Malgré un traitement identique, on constate que les patients ne réagissent pas de façon identique au régime. Certain perdent peu de poids, d'autres perdent beaucoup de poids mais le reprennent après le régime, d'autre encore perdent beaucoup de poids et n'en reprennent pas après le régime. A chaque étape du traitement, l'expression des gènes des patients sont mesurées. Le laboratoire essaie d'identifier une signature dans l'expression de gènes en fonction de la réponse au régime.. Parmi les gènes qui sont utiles à la prédiction comment les organiser, les grouper pour identifier des cibles potentielles ? L’objectif de cette thèse sera d'étudier un aspect clefs liés à la construction des classeurs : la sélection et l’organisation des variables (les gènes) dans les modèles prédictifs et ce pour l’identification de groupes de cibles. La dimension originale de la recherche se situera dans la définition des modèles de prédiction. On s’intéressera notamment à la sélection de variables (ici de gènes) qui permet d’ouvrir des pistes quant à l’identification de cibles à partir des résultats de classification. PRE REQUIS DEMANDE, FORMATION : bonnes connaissances médicales, connaissances de statistique et modélisation, ainsi que de programmation dans des environnements statistiques et/ou des langages génériques ; une expérience antérieure dans l’analyse du transcriptome serait un avantage. EXISTE-T-IL UN CANDIDAT POUR CETTE THESE NOM DU CANDIDAT : CURSUS : MASTER IBM OUI NON FINANCEMENT ENVISAGE POUR CETTE THESE DEMANDE D’ALLOCATION DE RECHERCHE AUTRE FINANCEMENT OUI OUI NON NON CONTACT POUR CE SUJET : PR. JEAN-DANIEL ZUCKER EMAIL : [email protected] TELEPHONE : 01 42 34 69 56 SPECIALITE DE LA THESE EPIDEMIOLOGIE BIOSTATISTIQUE MODELISATION EPIDEMIOLOGIE (CLINIQUE) INFORMATIQUE MEDICALE AUTRES (PRECISER) : BIOINFORMATIQUE