Exploitation simultanée de données de séquençage d'ADN tumoral d’un grand... patients   Titre:

Titre:
Exploitation simultae de données de séquençage d'ADN tumoral d’un grand nombre de
patients
Descriptiondusujet:
Il est unanimement accep que le cancer résulte de l'accumulation de modifications gétiques
à travers lesquelles les cellules évoluent jusqu'au stade de malignité [1], [2]. Par conséquent, les
cellules tumorales affichent généralement un scénario complexe de polymorphismes gétiques
(des mutations, des aberrations chromosomiques, et/ou des méthylations aberrantes). Une des
formes de polymorphismes les plus fréquentes, indifféremment du type de cancer, est la
variabilité du nombre de copies (en anglais copy number variation, CNV), c.d., un nombre de
copies d'un segment chromosomique qui est variable entre différents individus ou différentes
cellules d'un même individu. En effet, il a été démontré que les profiles CNV diffèrent entre les
cellules saines et les cellules tumorales. En outre, plusieurs études s'accordent sur le fait que
les profils CNV sont scifiques à chaque type de cancer, indépendamment de l'individu et de la
celluletumorale[3].
Dans le contexte d'une collaboration avec l'Institut Bergonié, un des les d'excellence dans la
lutte contre le cancer, on dispose de données de séquençage d'ADN provenant des échantillons
extraits des cellules tumorales, pré et posttraitement, venant d'un grand nombre de patients.
Habituellement, les données provenant de ces échantillons sont analysées inpendamment les
unes des autres. Ors, les séquences génomiques provenant d’une cohorte de patients souffrant
du me type de cancer présentent une grande redondance entre elles. Le sujet de cette thèse
est donc de se servir de cette redondance afin de proposer des solutions efficaces autant pour
repsenter ces données volumineuses de façon compacte (en amont) que pour les analyser
(enaval).
Dans le cadre de ce projet, on vise une nouvelle approche destie à exploiter simultament
les dones provenant des multiples échantillons. Pour cela, une première ie qui peut être
envisagée serait de réaliser une phase préliminaire de "clusterisation" des reads en se basant,
par exemple, sur la distribution des kmers présents dans les reads. Cette étape serait suivie
par une phase de mapping par clusters de reads. Grâce à ce mapping simultané de l'ensemble
des échantillons, on produirait directement une segmentation consistante entre les différents
jeux de reads, et on éviterait ainsi l'étape de réajustement des segmentations habituellement
effectuée.
De manre connexe à la question principale sur les profils CNV, plusieurs probmatiques
devrontêtreenvisagées,comme:
l'analysed'autrestypesdepolymorphismes(SNPs,indels)
la représentation compacte des données de séquençage provenant des différents individus, en
se basant sur le génome de référence [4], [5]. En effet, les grandes masses de dones que l'on
seraamesàmanipulerimpliquentuneattentionparticulreàporteràlaquestiondustockage.
Dans un deuxme temps, on élargira le cadre de travail à l'analyse de plusieurs nomes
tumoraux venant d'un me patient (études sur l'héronéi des tumeurs), pour lequel on
auraaccèsàunéchantillondegénomeconstitutionnel.
Lecandidatidéal:
possédera de solides comtences et savoirfaire en algorithmique, ceci incluant de
prérence le domaine de la théorie des graphes. Des compétences supplémentaires dans les
domaines suivants repsenteraient un plus : programmation, structures de données, théorie  
des probabilis, statistique, optimisation combinatoire. Une motivation pour travailler en
contexteinterdisciplinaireestnécessaire.
aura obtenu un master (de prérence en informatique) ou un dipme d'innieur et présentera
unefortemotivationpourlesactivitésderecherche.
aura des compétences solides en C/C++. Des langages de script comme bash, perl, python
serontégalementutilisés.
seracapabledetravaillerenéquipe.
Un intérêt pour le domaine de la biologie ou le domaine de la recherche biomédicale est
cessaire. Des compétences acquises en génétique, génomique et biologie ne sont pas
requises,bienqu’ellesserontunplus.
Un candidat titulaire d'un master de bioinformatique, et possédant des compétences en
algorithmique et en programmation approfondies, doubes d'une motivation pour la conception,
l'impmentation et le test de méthodes algorithmiques avancées, pourrait convenir. Une
expérience significative en programmation est requise, ainsi qu'une rigueur dans les
veloppementsapplicatifs.
Références:
[1]GarrawayLA,LanderES.Lessonsfromthecancergenome.Cell2013153,1737.
[2] Berger, MF et al. The genomic complexity of primary human prostate cancer. Nature 2011    
470,214–220.
[3] Letouzé E, Allory Y, Bollet MA, Radvanyi F, Guyon F. Analysis of the copy number profiles    
of several tumor samples from the same patient reveals the successive steps in
tumorigenesis.GenomeBiol201011(7):R76
[4] Christley S, Lu Y, Li C, Xie X. Human genomes as email attachments. Bioinformatics 2008      
25,274275.
[5] Fritz MHY, Leinonen R, Cochrane G, Birney E. Efficient storage of high throughput DNA
sequencingdatausingreferencebasedcompression.GenomeResearch201121,734740.
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !