Titre:
Exploitation simultanée de données de séquençage d'ADN tumoral d’un grand nombre de
patients
Descriptiondusujet:
Il est unanimement accepté que le cancer résulte de l'accumulation de modifications génétiques
à travers lesquelles les cellules évoluent jusqu'au stade de malignité [1], [2]. Par conséquent, les
cellules tumorales affichent généralement un scénario complexe de polymorphismes génétiques
(des mutations, des aberrations chromosomiques, et/ou des méthylations aberrantes). Une des
formes de polymorphismes les plus fréquentes, indifféremment du type de cancer, est la
variabilité du nombre de copies (en anglais copy number variation, CNV), c.à.d., un nombre de
copies d'un segment chromosomique qui est variable entre différents individus ou différentes
cellules d'un même individu. En effet, il a été démontré que les profiles CNV diffèrent entre les
cellules saines et les cellules tumorales. En outre, plusieurs études s'accordent sur le fait que
les profils CNV sont spécifiques à chaque type de cancer, indépendamment de l'individu et de la
celluletumorale[3].
Dans le contexte d'une collaboration avec l'Institut Bergonié, un des pôles d'excellence dans la
lutte contre le cancer, on dispose de données de séquençage d'ADN provenant des échantillons
extraits des cellules tumorales, pré et posttraitement, venant d'un grand nombre de patients.
Habituellement, les données provenant de ces échantillons sont analysées indépendamment les
unes des autres. Ors, les séquences génomiques provenant d’une cohorte de patients souffrant
du même type de cancer présentent une grande redondance entre elles. Le sujet de cette thèse
est donc de se servir de cette redondance afin de proposer des solutions efficaces autant pour
représenter ces données volumineuses de façon compacte (en amont) que pour les analyser
(enaval).
Dans le cadre de ce projet, on vise une nouvelle approche destinée à exploiter simultanément
les données provenant des multiples échantillons. Pour cela, une première idée qui peut être
envisagée serait de réaliser une phase préliminaire de "clusterisation" des reads en se basant,
par exemple, sur la distribution des kmers présents dans les reads. Cette étape serait suivie
par une phase de mapping par clusters de reads. Grâce à ce mapping simultané de l'ensemble
des échantillons, on produirait directement une segmentation consistante entre les différents
jeux de reads, et on éviterait ainsi l'étape de réajustement des segmentations habituellement
effectuée.
De manière connexe à la question principale sur les profils CNV, plusieurs problématiques
devrontêtreenvisagées,comme:
l'analysed'autrestypesdepolymorphismes(SNPs,indels)
la représentation compacte des données de séquençage provenant des différents individus, en
se basant sur le génome de référence [4], [5]. En effet, les grandes masses de données que l'on
seraamenésàmanipulerimpliquentuneattentionparticulièreàporteràlaquestiondustockage.