Exceptionnalité d`un motif dans une séquence hétérogène

Exceptionnalité d’un motif dans une

séquence hétérogène

Etienne Roquain, Sophie Schbath

Unit´

e Math´

ematique, Informatique & G ´

enome

INRA – Jouy-en-Josas

Algo. g ´

enomique, 27 Septembre 2007 – p.1

Introduction

Motivation : séquence d’ADN observée

agatgttagcgcacatgg · · ·

⇒Trouver mots avec une fonction biologique particulière

mot = succession de lettres dans {a,c,g,t}(ex : gctggtgg)

Approche statistique :

mots de fréquence signiﬁcativement forte ou faible / modèle

Mesure de l’exceptionnalité d’un mot w:

p-value de w=PN(w)≥Nobs(w),

•N(w)comptage de wdans séquence aléatoire

•Nobs(w)comptage de wdans séquence d’ADN observée

Algo. g ´

enomique, 27 Septembre 2007 – p.2

Introduction

Motivation : séquence d’ADN observée

agatgttagcgcacatgg · · ·

⇒Trouver mots avec une fonction biologique particulière

mot = succession de lettres dans {a,c,g,t}(ex : gctggtgg)

Approche statistique :

mots de fréquence signiﬁcativement forte ou faible / modèle

Mesure de l’exceptionnalité d’un mot w:

p-value de w=PN(w)≥Nobs(w),

•N(w)comptage de wdans séquence aléatoire

•Nobs(w)comptage de wdans séquence d’ADN observée

Algo. g ´

enomique, 27 Septembre 2007 – p.2

Introduction

Motivation : séquence d’ADN observée

agatgttagcgcacatgg · · ·

⇒Trouver mots avec une fonction biologique particulière

mot = succession de lettres dans {a,c,g,t}(ex : gctggtgg)

Approche statistique :

mots de fréquence signiﬁcativement forte ou faible / modèle

Mesure de l’exceptionnalité d’un mot w:

p-value de w=PN(w)≥Nobs(w),

•N(w)comptage de wdans séquence aléatoire

•Nobs(w)comptage de wdans séquence d’ADN observée

Algo. g ´

enomique, 27 Septembre 2007 – p.2

Étapes générales de la démarche statistique

1. Choix du modèle pour la séquence.

Exceptionnalité par rapport à quoi ?

Classiquement modèle markovien homogène d’ordre m

⇒except. par rapport à la composition en (m+ 1)-mots

2. Calcul p-value PN(w)≥Nobs(w)dans le modèle choisi.

Calcul exact (séq. longueur n < 10 000,m≤1)[Robin et al. 99]

Grandes déviations, n→ ∞ [Nuel 04, Pudlo 04]

Approx. loi N(w),n→ ∞ :

•poissonniennes (mots rares) [Schbath 95]

•gaussiennes (mots fréquents) [Prum et al. 95]

3. Selection des mots exceptionnels ?

Beaucoup de p-values à traiter (long. 7→16384 mots)

⇒problème de tests multiples

Puis validation des motifs candidats en laboratoire

Algo. g ´

enomique, 27 Septembre 2007 – p.3

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

Exceptionnalité d`un motif dans une séquence hétérogène

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Exceptionnalité d`un motif dans une séquence hétérogène

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib