Etat de l`art en Bioinformatique

publicité
Etat de l’art en
Bioinformatique
Sébastien Derivaux
pour le cours de bioinformatique de
Christian Michel
Définition


La Bioinformatique est la discipline qui
permet de mettre l’outil informatique au
service des biologistes:
stocker, extraire, organiser, analyser,
interpréter et utiliser les données
biologiques
Les données biologiques

La bioinformatique utilise 3 sources de données :



Les séquences de nucléotides (ADN - ARNm)
Les séquences d’aminoacides
Des informations sur les protéines (notamment leur
structures)
Bref historique






1953: Watson et Crick découvrent la structure
en double hélice de l’ADN
1962: Zuckerland et Pauling créent la théorie de
l’horloge moléculaire
1965: Monod, Jacob et Wolf découvrent les
mécanismes de la régulation génétique
impliqués dans le dogme central de Crick
1982: Création de GeneBank
1990: Première tentative de thérapie génétique
1999: Décryptage complet du chromosome 22
chez l’homme
Le dogme central de biologie
moléculaire

Séquence d’opérations de l’ADN aux protéines




transcription : l’ADN est copié en ARNm
traduction : l’ARNm est traduit en protéines par les
ribosomes
protéines sont les ouvrières du monde cellulaire
Le code de l’ADN est responsable de la vie
cellulaire
réplication
Domaines de la bioinformatique




Algorithmes d’alignements
Modèles d’évolution et arbres
phylogénétiques
Bases de données
Prédictions
Domaines de la bioinformatique

Algorithmes d’alignements
Algorithmes d’alignements



Utilisés dans tous les domaines de la
bioinformatique
Permettent la recherche de similarités entre
deux séquences
Si la similarité est suffisante, on peut parler
d’homologie, il est possible que les
séquences:
codent la même fonction
 aient un ancêtre commun

Algorithmes d’alignement


Les algorithmes d’alignement cherchent à
repérer des régions proches, c'est à dire les
régions qui comptabilisent un maximum de
caractères communs (appariements) et un
minimum de changements (substitutions,
insertions et délétions) lorsqu'on les superpose
l'une à l'autre.
L’évaluation se base sur le nombre
d’opérations et leur coût pour passer d’une
séquence à l’autre (via des matrices de coûts
pour la substitution, insertion et délétion)
Alignement local et global

L'alignement global est conçu pour comparer des
séquences homologues (apparentées) sur toute leur
longueur; on peut donc rater des homologies si elles
sont très localisées.




L'alignement local est conçu pour rechercher dans la
séquence A des régions semblables à la séquence B (ou
à des parties de la séquence B).




Algorithme de distance
Needleman-Wunsch (1970)
Myers & Miller
Smith-Waterman (1981)
FASTA (1988)
BLAST (1990, version 2 en 1997)
Ces algorithmes utilisent la programmation dynamique
Programmation dynamique




Optimisation pour les algorithmes de type diviser
pour régner
On divise un problème en sous problèmes
Si ces problèmes ne sont pas indépendant (ce
qui est le cas dans les algorithmes qui nous
concernent) on résout plusieurs fois les mêmes
sous problèmes ce qui n’est pas optimal
On résout donc le problème en stockant en
mémoire les résultats de ses sous problèmes,
ainsi on ne résout qu’une seule fois chaque
sous problème
Algorithme de distance d’édition


On crée un table T de taille (m + 1) x (n + 1) (m
et n tailles des séquences X et Y)
T[i,j] représente la distance d’édition entre X[0..i]
et Y[0..j] (X[0..i] étant la sous séquence de X
commençant en 0 et finissant en i)






T[-1,-1] = 0
T[i,-1] = T[i-1,-1] + Del(X[i])
T[-1,j] = T[-1,j-1]+Ins(Y[i])
T[i,j] = min(T[i-1,j-1]+Sub(X[i],Y[i]), T[i-1,j]+Del(X[i]),
T[i,j-1]+Ins(Y[j]))
La distance d’édition est T[m+1,n+1]
La complexité est de 0(n²) en temps et en
espace
Algorithme de distance d’édition







A
Comparaison de ACT et
ATG
Coûts:
Coût(Ins(x)) = 1
Coût(Del(x)) = 1
Coût(Sub(x,x)) = 0
Coût(Sub(x,y)) = 3 (x ≠ y)
Les coûts doivent établir
une distance
0
A
T
G
C
T
Algorithme de distance d’édition
A
C
T
0
1
2
3
A
1
0
1
2
T
2
1
2
1
G
3
2
3
2
T[1,1] = T[0,0] + Sub(A,A) =
T[0,0]
T[3,1] = T[2,1] + Del(A)
Alignement optimal, on
retourne de T[m+1, n+1] à
T[0,0] en suivant les
opération effectuées
ACTA-TG
Algorithme Needleman-Wunsch

Recherche le meilleur alignement global entre deux
séquences



Très coûteux en temps
Ne détecte pas les motifs seuls
3 étapes



1. Une valeur est affectée à chaque case du tableau en fonction
de la similarité/dissimilarité
2. Pour chaque cellule, chercher tous les chemins à partir du
début de la séquence (en autorisant les insertions et délétions)
et attribuer à la cellule la valeur maximale plus la valeur de la
cellule elle-même
3. Construire l’alignement optimal en partant de la cellule avec le
meilleur score à l’origine
Algorithme Needleman-Wunsch

Étape 1

On affecte les valeurs de
similarité/dissimilarité (ici 1 si
similaire, 0 sinon)
Algorithme Needleman-Wunsch

Étape 2 pour chaque cellule




On recherche dans la sous-ligne
et la sous-colonne (grisées dans
l’exemple) la meilleure valeur
(ici T[5,5] = 4)
On ajoute cette valeur avec celle
de la cellule courante (ici 4 + 1 =
5)
On peut utiliser des pénalités
pour les introductions de trous
dans l’alignement (insertions et
délétions), ici pénalité = 0
On obtient 5 pour la cellule de
l’exemple
Algorithme Needleman-Wunsch

Étape 3



Le meilleur alignement est
celui qui a la valeur
maximale
La valeur maximale est
toujours sur la dernière
ligne ou la dernière
colonne
On construit l’alignement
en chaînage arrière à partir
de la valeur maximale à
l’origine
Algorithme Smith-Waterman



Basé sur l’algorithme de Needleman-Wunsch,
mais au lieu de comparer les chaînes sur toute
leur longueur, il regarde toutes les sous chaînes
et choisit celle qui a la meilleure valeur
Pour chaque cellule, l’algorithme calcule tous les
chemins qui y arrivent indépendamment de leur
taille, du nombre d’insertions et de délétions
L’algorithme ne fonctionne bien que s’il y a des
pénalité pour les trous (insertions et délétions),
sinon on a le même résultat que NeedlemanWunsch
Algorithme Smith-Waterman

Dans l’exemple





substitution(a,a) = +1
substitution(a,b) = -1/3
trou(k) = -1 – k/3 (k=taille
du trou)
Les cellules sont
initialisées à 0
La valeur de T[i,j] est le
maximum de:




T[i-1,j-1] + sub(Xi,Xj)
T[i,k] + trou(k) (k < j)
T[k,j] + trou(k) (k < i)
0 (on recommence un
chemin)
Algorithme Smith-Waterman




La valeur de chaque cellule est
la valeur du meilleur
alignement se finissant en
cette cellule
On trace le meilleur chemin à
partir de la meilleure cellule
Cette cellule peut être
n’importe où dans le tableau
L’origine de ce chemin est un
0 qui note le début du nouveau
chemin, ce n’est pas forcement
l’origine (cf exemple)
Autres algorithmes

BLAST et FAST




Variantes de SmithWaterman avec utilisation
d’heuristiques
Plus rapides, mais risques
de manquer des
alignements
BLAST est plus rapide,
FAST plus sensible
DotPlot


Méthode visuelle (cf
exemple)
On recherche visuellement
les diagonales qui
correspondent à des
régions de similarité
(entourées en rouge)
Alignement multiple


L’alignement multiple consiste à aligner
plusieurs séquences de façon globale
Objectifs:





Caractérisation des familles de protéines
Définition des motifs fonctionnels et des domaines
Aider à la prédiction de structures secondaires et
tertiaires de nouvelles séquences (en comparant
avec celles connues)
Point de départ pour un traitement phylogénétique
Algorithme de CLUSTALW et BLASTn
Domaines de la bioinformatique


Algorithmes d’alignements
Modèles d’évolution et arbres
phylogénétiques
Modèle d’évolution de LAMARK
(1744-1829)

Pour Lamark, l'évolution était due à une adaptation
continue au milieu ambiant : un environnement
changeant altère les besoins de l'organisme vivant qui
s'adapte en modifiant son comportement et en utilisant
certains organes plus que d'autres.
A force d’étirer son cou pour manger
aux arbres, le cou de la girafe
devient de plus en plus long
Modèle d’évolution de DARWIN
(1809-1882)



Évolution par sélection naturelle
Une population est hétérogène et la nature
favorise la multiplication de ceux qui ont
un avantage dans leur environnement
Il existe un processus de mutation qui
permet d’avoir des phénotypes toujours
légèrement différents
Les théories modernes


La théorie de l’évolution n'est pas uniformisante comme
le pensait les typologistes, mais diversifiante
2 théories pour l’expliquer:


La théorie neutraliste
La pluparts des mutations restent neutres, se fixent au hasard
(seules les mutations très défavorisantes ou létales pour
l'individu sont éliminées) et le milieu n'a pas de rôle sélectif.
La théorie sélectionniste
Le polymorphisme génétique correspond à l'hétérogénéité de la
niche écologique dont les conditions changent sans cesse dans
le temps, mais aussi dans l'espace. L'espèce polymorphe voit
donc sa niche écologique s'agrandir de façon considérable, en
même temps que ses ressources augmentent et que la
compétition diminue.
En réalité, ce n'est pas l'individu, comme le pensaient les
darwiniens, ni même les gènes, selon le néodarwinisme, qui
constituent l'unité de base du vivant ; c'est toute la population.
Évolution convergente et évolution
divergente


L'évolution convergente correspond à des
solutions trouvées de manière indépendante
chez des organismes différents pour résoudre le
même problème
L'évolution divergente correspond au contraire à
des protéines ayant le même ancêtre commun
mais qui se sont spécialisées dans des fonctions
différentes
Phylogénie


La phylogénie retrace l'évolution
des organismes. Elle s'appuie sur
la taxonomie, laquelle a pour objet
de classer les êtres vivants afin de
les regrouper en ensembles
suffisamment homogènes pour
être comparés entre eux dans le
temps et l'espace
La phylogénie moléculaire
procède par comparaison de
gènes, il faut utiliser des gènes qui
mutent peu
Phylogénie moléculaire


La reconstruction est
basée sur un ensemble de
séquences supposées
descendre d’une même
séquence ancestrale
La recherche de blocs
« conservés » permet de
passer des séquences à un
ensemble de sites sur
lesquels on peut comparer
les séquences


Alignement multiple
Sur l’exemple, on conserve
les sites 0,1,2,3,4 des
séquences et le reste est
éliminé
Objectifs de la phylogénie




Mieux comprendre les mécanismes de l'
évolution et les mécanismes moléculaires
associés
Connaître l'arbre de la vie (taxonomie)
Étudier la biodiversité
Déterminer l'origine géographique des
espèces
Théorie de l’horloge moléculaire

Quelques observations

Le taux de mutation sur les gènes soumis à la pression sélective
est faible



Le taux d’accumulation des mutations sur des régions
homologues (soumises à la même pression sélective) est le
même pour toutes les espèces
On peut donc tracer un arbre phylogénétique en
observant les dissimilarités sur les gènes


exemple: le gène cytochrome B intervenant dans les chaînes
d'oxydation cellulaire est très similaires chez tout les êtres vivants
Si un gène soumis à la pression sélective est différent chez deux
espèces, c’est qu’elles ont divergée depuis longtemps
Deux approches


approche phénétique
approche cladistique
Approche phénétique


Fondée sur les distances
Principe


Méthode



Méthode de clustering : ces programmes procèdent par regroupement
successifs (clustering), depuis la paire des séquences les plus proches
aux plus éloignées.
Résultat


La configuration de l'arbre traduit avant tout le degré de similarité, sans
nécessairement tenter de refléter l'évolution moléculaire sous-jacente
(l'histoire) aux phénotypes observés.
Un et un seul arbre sans racine, nommé phénogramme ou
dendrogramme
Méthode rapide, avec de bons résultats pour des séquences
proches
Algorithmes : UPGMA, Neighbor Joining, Méthode des moindres
carrés
Algorithme "Neighbor Joining" (NJ)




Saitou & Nei, 1986
NJ regroupe les espèces en
fonction de leur distance avec
l'ensemble des autres espèces, et
non pas de leur distance entre
elles. Ce faisant, NJ minimise aussi
la longueur totale des branches.
Cet algorithme fonctionne même si
les vitesse d’évolution varient d’une
branche à l’autre
Il utilise une heuristique basé sur le
principe du minimum d’évolution


N’examine pas toutes les
configurations
Très rapide (comparé à la méthode
des moindres carré qui évalue
toutes les possibilités)
A
B
C
D
B
5
C
4
7
D
7
10
7
E
6
9
6
5
F
8
11
8
9
E
8
Matrice de distance entre 5 séquences et
arbre original
Algorithme "Neighbor Joining" (NJ)

Etape 1: On appelle OTU
(Operational Taxonomic Unit) une
feuille ou un nœud de l'arbre. Au
début, les OTU sont les espèces.
On calcule la divergence nette
r(i) de chaque OTU avec toutes
les autres


r(A) = 5+4+7+6+8=30 r(B) = 42
r(C) = 32 r(D) = 38 r(E) = 34 r(F)
= 44
Etape 2: On calcule une nouvelle
matrice de distance qui va
donner pour chaque paire d'OTU
la distance moyenne de cette
paire avec tous les autres OTUs.
Formule:


M(ij)=d(ij) - [r(i) + r(j)]/(N-2) soit
pour la paire A,B:
M(AB)=d(AB) -[(r(A) + r(B)]/(N-2)
= -13
A
B
C
D
B
-13
C
-11.5
-11.5
D
-10
-10
-10.5
E
-10
-10
-10.5
-13
F
-10.5
-10.5
-11
-11.5
E
-11.5
Algorithme "Neighbor Joining" (NJ)

Etape 3: On choisit comme voisins les 2 OTU
pour lesquels Mij est le plus petit. Ce sont A et B;
ou D et E. Prenons A et B et créons un nouveau
nœud appelé U. On calcule ensuite les
longueurs des branches entre le nœud interne U
et les OTU A et B et avec tous les autres nœuds
terminaux






d(AU) =d(AB) / 2 + [r(A)-r(B)] / 2(N-2) = 1
d(BU) =d(AB) -d(AU) = 4
d(CU) = d(AC) + d(BC) - d(AB) / 2 = 3
d(DU) = d(AD) + d(BD) - d(AB) / 2 = 6
d(EU) = d(AE) + d(BE) - d(AB) / 2 = 5
d(FU) = d(AF) + d(BF) - d(AB) / 2 = 7
Algorithme "Neighbor Joining" (NJ)


On obtient l’arbre ci-contre
On recommence à l’étape 1,
avec une matrice réduite d’une
ligne et d’une colonne (A et B
sont remplacé par U)
Approche cladistique


Fondée sur les séquences
Principe


La configuration de l'arbre tente de représenter le degré de parenté en
intégrant l'évolution moléculaire sous-jacente aux phénotypes observés
Méthode

Ces méthodes construisent l'arbre en considérant les différentes
configurations possibles (les différentes voies évolutives possibles) et
choisissent la meilleure parmi celles-ci. Ces méthodes se caractérisent
par :




Résultat




Le critère quantitatif qui évalue les configurations et intègre les hypothèses
biologiques propres à la méthode.
L'algorithme qui calcule cette quantité pour un arbre donné.
La stratégie de recherche du meilleur arbre définit suivant ce critère.
Un ou plusieurs arbres ex-aequo, nommé cladogramme
Elles peuvent reconstituer les séquences ancestrales occupant les
nœuds de l'arbre.
Méthode très lente
Algorithmes: méthode de parcimonie, de compatibilité, de
vraisemblance maximum
Algorithme de parcimonie


La parcimonie consiste a minimiser le nombre de "pas"
(mutations / substitutions) nécessaires pour passer
d'une séquence à une autre dans une topologie de
l'arbre
Hypothèses:



les sites évoluent indépendamment les uns des autres
la vitesse d'évolution est lente et constante au cours du temps
On travaille sur les arbres non enraciné pour réduire la
complexité

Pour 8 OTU, il y a 10 395 arbres non enraciné et 135 135 arbres
enracinés
Algorithme de parcimonie

On ne travaille que sur les sites informatifs



au moins deux nucléotides différents à cette position
chacun dans au moins deux séquences
exemple: on ne conserve que les sites 5,7,9
Séquence
1
2
3
4
5
6
7
8
9
1
A
A
G
A
G
T
G
C
A
1
G
G
A
2
A
G
C
C
G
T
G
C
G
2
G
G
G
3
A
G
A
T
A
T
C
C
A
3
A
C
A
4
A
G
A
G
A
T
C
C
G
4
A
C
G
Algorithme de parcimonie

Avec l’exemple précédent
on peut construire 3
arbres non enracinés



Le premier a besoin de 4
mutations, le second de 5
et le troisième de 6
L’arbre le plus
parcimonieux est donc le
premier
Il est possible de trouver
plusieurs arbres optimaux

On peut utiliser le bootstrap
(avec les arbres obtenus)
pour trouver l’arbre
consensus
Évaluation des arbres
phylogénétiques

Le bootstrap :






consiste à effectuer un tirage des sites au hasard avec remise
(réplication)
générations des nouveaux arbres
recense les groupements les plus fréquemment rencontrés sur
l'ensemble des arbres
si un groupement est présent sur 95% des arbres, on le dit fiable
il faut 1000 réplications pour que la méthode soit statistiquement
valable
Delete-half-Jackknifing

Cette méthode ré-échantillonne la moitié des sites des
séquences et élimine le reste (donne des résultats très similaires
à ceux obtenus par bootstrap).
Domaines de la bioinformatique



Algorithmes d’alignements
Modèles d’évolution et arbres
phylogénétiques
Bases de données
Bases de données

Diverses banques de données
Séquences de gènes : GenBank (NCBI),
EMBL (EBI), DDBJ
 Séquences de protéines : SWISS-PROT, PIR,
ENZYME
 Structures macromoléculaires 3D : PDB,
MMDB

Évolution de la banque EMBL
Bases de données

Explosion des données :

Séquences du génomes :
16 milliards de paires de bases
 Le génomes humain : 3,2 milliards


Séquences de protéines :
SWISSPROT : 130000 séquences annotées
 TrEMBL : 850000 séquences


Structures de protéines :

PDB : 25000 structures
Intégrations des bases de
données

Chaque base de données a son format propre


Certains format standard existent : asn.1, fasta, mais
aucun n’est universel
Existences de bases intégrées:

Permet des recherches simples sur plusieurs bases
de données hétérogènes



Ex: Entrez (NCBI) intègre des publications, des bases de
nucléotides et protéines, des structures 3D de protéines, …
Problèmes de différences de terminologies entre les
bases et de requêtes complexes sur plusieurs bases.
Utilisation complexe
Les ontologies en
bioinformatique


Formalisation du savoir
Exemples

GeneOntology
19000 termes de biologie moléculaire
 Normalisation des protéines de UniProt et Interpro
en cours


TAMBIS

Permet de faire de recherches de concepts

Ex : recherche de protéines vérifiant la relation
« protéine1 homologue à protéine2 »
Les apports de l’ontologie

Permet d’enrichir la requête

Ex d’ontologie Nucléotide compose
R


Y
Codon
est un
A G C T
Si l’utilisateur cherche une séquence RYR, on peut
aussi lui renvoyer les résultats avec ATG.
Gestion de vocabulaires différents

Transfert ARN et tARN définissent le même concept
Intégration par vues

Création d’un schéma qui intègre celui des
bases qu’il utilise




L’utilisateur accède de façon transparentes au bases
de données
La terminologie est unifiée (utilisation d’ontologie)
Permet d’effectuer des requêtes complexes dans un
langage de haut niveau (ex BioKleisli)
Utilisation plus simple car requiert moins de
connaissances
Domaines de la bioinformatique




Algorithmes d’alignements
Modèles d’évolution et arbres
phylogénétiques
Bases de données
Prédictions
Prédiction de structure

Prédire la structure 3D d’une protéine à
partir de sa séquence


Problème NP-complet [Berger, 1998]
Déduire la séquence d’ADN à partir de la
structure

Essentiel pour produire des protéines
inhibantes
Structure d’une protéine

Structure primaire (1D)


Structure secondaire (2D)


repliements (formations périodiques
adopté par des portions partielles
d’une protéine. Géométries
possibles: hélice alpha (H), feuillet
beta (E : brin étendu) et en coude
(C).
Structure tertiaire (3D)


séquence des acides aminés
enchaînes par des liaisons
peptidiques et des ponts disulfures
conformation tridimensionnelle
thermodynamiquement stable
qu'adoptent les différents éléments
de la structure 2D
Structure quaternaire (4D)

certaines protéines complexe sont
constituées de plusieurs sous-unités,
l’agencement de ces sous unités
défini la structure quaternaire
Connaissance des structures

PDB (Protein Data Bank)





> 25000 structure de protéines
nombre de conformations significativement différentes
(ayant moins de 25% d’acides aminés identiques) : >
1500
ajout de 6 structures chaque jour
La majorité des séquences ont une homologie
structurale < 20%
On évalue à environ 10000 le nombre total de
structures protéiques originales qui suffirait à
modéliser la quasi-totalité des protéines
connues
Prédiction de structure 2D

Méthode statistique


A partir des propriétés physico-chimiques des acides
aminés





Depuis 1974, à partir des séquences connues on établit une
table des proportions des 20 acides aminés, on associe la
structure d’une séquence avec la plus proche dans la table
la charge, l'hydrophobicité et l'hydrophilie influent sur la structure
Méthode des plus proches voisins
Méthode par réseaux de neurones
Méthode des chaînes de Markov
L'influence de la structure 3D sur la structure 2D n'est
pas prise en compte par ces méthodes, or elle existe
Prédiction de structure 3D


Comparaison avec une banque de structure de protéines
Si la protéine partage au moins 30% de ses acides
aminés avec une protéine connue, la structure de cette
protéine sert d’empreinte pour le modèle structural de la
protéine étudiée, ensuite peut raffiner en utilisant deux
méthodes:



Sinon, on applique le threading:


Méthodes substitutives
Méthodes géométriques
on recherche dans les repliements connus et on essaye de les
assembler en optimisant certaines aspect comme
l’hydrophobie/hydrophilie, le rapport surface/volume, le rayon de
giration, ...
Néanmoins, on atteint au mieux 76% d’exactitude avec
des réseaux neuronaux, problème encore ouvert
Structure d’une séquence d’ADN





Seul 1,1% de l’ADN humain est codant: ce sont
les exons
Chaque gène est composé d’introns (non
codant) et d’exons
Les gènes représentent 25% du génome
humain, le reste est appelé ADN intergénique
La fonction de la majeure partie de l’ADN n’est
pas connue
Une ORF (Open Reading Frame) est la région
de l’ADN entre deux codons stop, possiblement
codante
Recherche d’ORF

La recherche d’ORF utilise plusieurs méthodes




repérage des phases d’ouverture de lecture longues,
statistiquement improbable
recherche des signaux nécessaires à la traduction, en
particulier le site de fixation du ribosome (RBS)
recherche de séquences particulières qui séparent
introns et exons, ces séquences sont découvert par
des systèmes à apprentissage, ils ne sont ni
universels, ni spécifiques
comparaison de la distribution des lettres ACGT
Codes circulaires




Une fois trouvée, une séquence codante de
codon (suite de 3 nucléotides) peut commencer
à se lire sur 3 positions différentes
Un code circulaire est un ensemble de mots tel
que, tout mot écrit sur un cercle (la lettre qui suit
la dernière lettre du mot est la première lettre du
mot) a, au plus, une décomposition unique en
mots du code.
Le décodage d’un mot écrit à partir de mots d’un
code circulaire est donc non ambigu
Or, les séquences codantes semblent écrites
avec un code circulaire, il est donc aisé de
trouver la fenêtre de lecture
Détermination de la fonction d’un
gène



Par similarité de séquence
Par similarité de structure 3D
Par l'étude de l'expression du gène dans
l'espace et dans le temps



On regarde la densité de l’ARNm produit selon les
cellules, l’état de développement, le milieu ...
Puces à ADN
Par observation des effets de l'altération ou de
la délétion du gène
Puces à ADN



Mesures massivement parallèles et quantitatives de
l’expression des gènes (transcrits/ARNm)
On hybride de l’ADN complémentaire (ADNc)
synthétique avec de l’ADN de cellules et on regarde
l’expression des gènes
On peut tester 10000 ADNc simultanément
Exemple de puce à ADN, on a hybridé de
échantillon d’ADNc (ADN complémentaire)
synthétique (cible) avec de l’ADN de
cellules (sonde) saines et d’autres
cancéreuses (en double couche), la
superposition des deux couches montre
quels ADNc sont efficaces contre le cancer
Conclusion


La bioinformatique est un domaine vaste
Il reste de nombreux problèmes ouverts
Prédiction de structures 3D
 Gestion de l’explosion des données


Les progrès en bioinformatique permettent
des avancées importantes en terme de
santé

17 enfants atteints de déficit immunitaire
combiné sévère ont été soigné par thérapie
génétique
Téléchargement