Exploitation simultanée de données de séquençage d'ADN tumoral d’un grand... patients Titre:

Téléchargement



Titre:

Exploitation simultanée de données de séquençage d'ADN tumoral d’un grand nombre de           

patients



Descriptiondusujet:

Il est unanimement accepté que le cancer résulte de l'accumulation de modifications génétiques            

à travers lesquelles les cellules évoluent jusqu'au stade de malignité [1], [2]. Par conséquent, les              

cellules tumorales affichent généralement un scénario complexe de polymorphismes génétiques         

(des mutations, des aberrations chromosomiques, et/ou des méthylations aberrantes). Une des          

formes de polymorphismes les plus fréquentes, indifféremment du type de cancer, est la            

variabilité du nombre de copies (en anglais copy number variation, CNV), c.à.d., un nombre de              

copies d'un segment chromosomique qui est variable entre différents individus ou différentes           

cellules d'un même individu. En effet, il a été démontré que les profiles CNV diffèrent entre les                

cellules saines et les cellules tumorales. En outre, plusieurs études s'accordent sur le fait que              

les profils CNV sont spécifiques à chaque type de cancer, indépendamment de l'individu et de la               

celluletumorale[3].



Dans le contexte d'une collaboration avec l'Institut Bergonié, un des pôles d'excellence dans la             

lutte contre le cancer, on dispose de données de séquençage d'ADN provenant des échantillons             

extraits des cellules tumorales, pré et posttraitement, venant d'un grand nombre de patients.            

Habituellement, les données provenant de ces échantillons sont analysées indépendamment les          

unes des autres. Ors, les séquences génomiques provenant d’une cohorte de patients souffrant            

du même type de cancer présentent une grande redondance entre elles. Le sujet de cette thèse               

est donc de se servir de cette redondance afin de proposer des solutions efficaces autant pour               

représenter ces données volumineuses de façon compacte (en amont) que pour les analyser            

(enaval).



Dans le cadre de ce projet, on vise une nouvelle approche destinée à exploiter simultanément              

les données provenant des multiples échantillons. Pour cela, une première idée qui peut être             

envisagée serait de réaliser une phase préliminaire de "clusterisation" des reads en se basant,             

par exemple, sur la distribution des kmers présents dans les reads. Cette étape serait suivie              

par une phase de mapping par clusters de reads. Grâce à ce mapping simultané de l'ensemble               

des échantillons, on produirait directement une segmentation consistante entre les différents          

jeux de reads, et on éviterait ainsi l'étape de réajustement des segmentations habituellement            

effectuée.



De manière connexe à la question principale sur les profils CNV, plusieurs problématiques            

devrontêtreenvisagées,comme:

l'analysed'autrestypesdepolymorphismes(SNPs,indels)

 la représentation compacte des données de séquençage provenant des différents individus, en            

se basant sur le génome de référence [4], [5]. En effet, les grandes masses de données que l'on                 

seraamenésàmanipulerimpliquentuneattentionparticulièreàporteràlaquestiondustockage.



Dans un deuxième temps, on élargira le cadre de travail à l'analyse de plusieurs génomes              

tumoraux venant d'un même patient (études sur l'hétérogénéité des tumeurs), pour lequel on            

auraaccèsàunéchantillondegénomeconstitutionnel.



Lecandidatidéal:

 possédera de solides compétences et savoirfaire en algorithmique, ceci incluant de           

préférence le domaine de la théorie des graphes. Des compétences supplémentaires dans les            

domaines suivants représenteraient un plus : programmation, structures de données, théorie          

des probabilités, statistique, optimisation combinatoire. Une motivation pour travailler en         

contexteinterdisciplinaireestnécessaire.



 aura obtenu un master (de préférence en informatique) ou un diplôme d'ingénieur et présentera              

unefortemotivationpourlesactivitésderecherche.



 aura des compétences solides en C/C++. Des langages de script comme bash, perl, python              

serontégalementutilisés.



seracapabledetravaillerenéquipe.



Un intérêt pour le domaine de la biologie ou le domaine de la recherche biomédicale est               

nécessaire. Des compétences déjà acquises en génétique, génomique et biologie ne sont pas            

requises,bienqu’ellesserontunplus.



Un candidat titulaire d'un master de bioinformatique, et possédant des compétences en           

algorithmique et en programmation approfondies, doublées d'une motivation pour la conception,          

l'implémentation et le test de méthodes algorithmiques avancées, pourrait convenir. Une          

expérience significative en programmation est requise, ainsi qu'une rigueur dans les          

développementsapplicatifs.



Références:

[1]GarrawayLA,LanderES.Lessonsfromthecancergenome.Cell2013153,1737.

[2] Berger, MF et al. The genomic complexity of primary human prostate cancer. Nature 2011            

470,214–220.

[3] Letouzé E, Allory Y, Bollet MA, Radvanyi F, Guyon F. Analysis of the copy number profiles               

of several tumor samples from the same patient reveals the successive steps in            

tumorigenesis.GenomeBiol201011(7):R76

[4] Christley S, Lu Y, Li C, Xie X. Human genomes as email attachments. Bioinformatics 2008              

25,274–275.

[5] Fritz MHY, Leinonen R, Cochrane G, Birney E. Efﬁcient storage of high throughput DNA              

sequencingdatausingreferencebasedcompression.GenomeResearch201121,734–740.



1 / 2 100%

Exploitation simultanée de données de séquençage d'ADN tumoral d’un grand... patients Titre:

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Exploitation simultanée de données de séquençage d'ADN tumoral d’un grand... patients Titre:

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib