Exploitation simultanée de données de séquençage d'ADN tumoral d’un grand... patients   Titre:

publicité
 Titre: Exploitation simultanée de données de séquençage d'ADN tumoral d’un grand nombre de patients Description du sujet: Il est unanimement accepté que le cancer résulte de l'accumulation de modifications génétiques à travers lesquelles les cellules évoluent jusqu'au stade de malignité [1], [2]. Par conséquent, les cellules tumorales affichent généralement un scénario complexe de polymorphismes génétiques (des mutations, des aberrations chromosomiques, et/ou des méthylations aberrantes). Une des formes de polymorphismes les plus fréquentes, indifféremment du type de cancer, est la variabilité du nombre de copies (en anglais copy number variation, CNV), c.à.d., un nombre de copies d'un segment chromosomique qui est variable entre différents individus ou différentes cellules d'un même individu. En effet, il a été démontré que les profiles CNV diffèrent entre les cellules saines et les cellules tumorales. En outre, plusieurs études s'accordent sur le fait que les profils CNV sont spécifiques à chaque type de cancer, indépendamment de l'individu et de la cellule tumorale [3]. Dans le contexte d'une collaboration avec l'Institut Bergonié, un des pôles d'excellence dans la lutte contre le cancer, on dispose de données de séquençage d'ADN provenant des échantillons extraits des cellules tumorales, pré-­ et post-­traitement, venant d'un grand nombre de patients. Habituellement, les données provenant de ces échantillons sont analysées indépendamment les unes des autres. Ors, les séquences génomiques provenant d’une cohorte de patients souffrant du même type de cancer présentent une grande redondance entre elles. Le sujet de cette thèse est donc de se servir de cette redondance afin de proposer des solutions efficaces autant pour représenter ces données volumineuses de façon compacte (en amont) que pour les analyser (en aval). Dans le cadre de ce projet, on vise une nouvelle approche destinée à exploiter simultanément les données provenant des multiples échantillons. Pour cela, une première idée qui peut être envisagée serait de réaliser une phase préliminaire de "clusterisation" des reads en se basant, par exemple, sur la distribution des k-­mers présents dans les reads. Cette étape serait suivie par une phase de mapping par clusters de reads. Grâce à ce mapping simultané de l'ensemble des échantillons, on produirait directement une segmentation consistante entre les différents jeux de reads, et on éviterait ainsi l'étape de réajustement des segmentations habituellement effectuée. De manière connexe à la question principale sur les profils CNV, plusieurs problématiques devront être envisagées, comme: -­ l'analyse d'autres types de polymorphismes (SNPs, indels);; -­ la représentation compacte des données de séquençage provenant des différents individus, en se basant sur le génome de référence [4], [5]. En effet, les grandes masses de données que l'on sera amenés à manipuler impliquent une attention particulière à porter à la question du stockage. Dans un deuxième temps, on élargira le cadre de travail à l'analyse de plusieurs génomes tumoraux venant d'un même patient (études sur l'hétérogénéité des tumeurs), pour lequel on aura accès à un échantillon de génome constitutionnel. Le candidat idéal: -­ possédera de solides compétences et savoir-­faire en algorithmique, ceci incluant de préférence le domaine de la théorie des graphes. Des compétences supplémentaires dans les domaines suivants représenteraient un plus : programmation, structures de données, théorie des probabilités, statistique, optimisation combinatoire. Une motivation pour travailler en contexte interdisciplinaire est nécessaire. -­ aura obtenu un master (de préférence en informatique) ou un diplôme d'ingénieur et présentera une forte motivation pour les activités de recherche. -­ aura des compétences solides en C/C++. Des langages de script comme bash, perl, python seront également utilisés. -­ sera capable de travailler en équipe. Un intérêt pour le domaine de la biologie ou le domaine de la recherche biomédicale est nécessaire. Des compétences déjà acquises en génétique, génomique et biologie ne sont pas requises, bien qu’elles seront un plus. Un candidat titulaire d'un master de bioinformatique, et possédant des compétences en algorithmique et en programmation approfondies, doublées d'une motivation pour la conception, l'implémentation et le test de méthodes algorithmiques avancées, pourrait convenir. Une expérience significative en programmation est requise, ainsi qu'une rigueur dans les développements applicatifs. Références: [1] Garraway LA, Lander ES. Lessons from the cancer genome. Cell 2013;; 153, 17-­37. [2] Berger, MF et al. The genomic complexity of primary human prostate cancer. Nature 2011;; 470, 214–220. [3] Letouzé E, Allory Y, Bollet MA, Radvanyi F, Guyon F. Analysis of the copy number profiles of several tumor samples from the same patient reveals the successive steps in tumorigenesis.Genome Biol 2010;; 11(7):R76 [4] Christley S, Lu Y, Li C, Xie X. Human genomes as email attachments. Bioinformatics 2008;; 25, 274–275. [5] Fritz MH-­Y, Leinonen R, Cochrane G, Birney E. Efficient storage of high throughput DNA sequencing data using reference-­based compression. Genome Research 2011;; 21, 734–740. 
Téléchargement