Étude statistiques des fonctions de score utilisées dans Séries génératrices probabilisées Alban M ANCHERON & Jérémie B OURDON [email protected] [email protected] Laboratoire d’Informatique de Nantes-Atlantique Mini-Séminaire – Vendredi 19 novembre 2004 – p.1/21 Sommaire Pattern Matching – Alignement de séquences Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Variables Aléatoires Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Variables Aléatoires Moments Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Variables Aléatoires Moments Séries génératrices Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Variables Aléatoires Moments Séries génératrices Étude statistique des fonctions de score utilisées dans Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Variables Aléatoires Moments Séries génératrices Étude statistique des fonctions de score utilisées dans Définition de la série génératrice Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Variables Aléatoires Moments Séries génératrices Étude statistique des fonctions de score utilisées dans Définition de la série génératrice Propriétés de la série génératrice Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Variables Aléatoires Moments Séries génératrices Étude statistique des fonctions de score utilisées dans Définition de la série génératrice Propriétés de la série génératrice Moyenne / Variance Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Variables Aléatoires Moments Séries génératrices Étude statistique des fonctions de score utilisées dans Définition de la série génératrice Propriétés de la série génératrice Moyenne / Variance Distribution Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Sommaire Pattern Matching – Alignement de séquences B LAST / algorithme de N EEDLEMAN -W UNSCH « Information Content » Fonctions de score utilisées dans Rappels de Statistiques Variables Aléatoires Moments Séries génératrices Étude statistique des fonctions de score utilisées dans Définition de la série génératrice Propriétés de la série génératrice Moyenne / Variance Distribution Conclusions & Perspectives Mini-Séminaire – Vendredi 19 novembre 2004 – p.2/21 Pattern Matching – Alignement de séquences Mini-Séminaire – Vendredi 19 novembre 2004 – p.3/21 B LAST / algorithme de N EEDLEMAN -W UNSCH Loi doublement exponentielle ou des valeurs extrêmes de type I ou de « G UMBEL » Mini-Séminaire – Vendredi 19 novembre 2004 – p.4/21 B LAST / algorithme de N EEDLEMAN -W UNSCH Loi doublement exponentielle ou des valeurs extrêmes de type I ou de « G UMBEL » f (x) = e−x−e −x Mini-Séminaire – Vendredi 19 novembre 2004 – p.4/21 B LAST / algorithme de N EEDLEMAN -W UNSCH 0.4 0.35 Loi doublement exponentielle ou des valeurs extrêmes de type I ou de « G UMBEL » 0.3 0.25 0.2 0.15 f (x) = e−x−e −x 0.1 0.05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 Mini-Séminaire – Vendredi 19 novembre 2004 – p.4/21 B LAST / algorithme de N EEDLEMAN -W UNSCH 0.4 0.35 Loi doublement exponentielle ou des valeurs extrêmes de type I ou de « G UMBEL » 0.3 0.25 0.2 0.15 f (x) = e−x−e −x 0.1 0.05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 B LAST, FASTA, . . . Mini-Séminaire – Vendredi 19 novembre 2004 – p.4/21 « Information Content » Loi Gamma G(n, λ) Mini-Séminaire – Vendredi 19 novembre 2004 – p.5/21 « Information Content » Loi Gamma G(n, λ) 8 < 0 si x < 0 f (x) = : λn xn−1 e−λx sinon Γ(n) R +∞ −x n−1 avec Γ(x) = 0 e x dx Mini-Séminaire – Vendredi 19 novembre 2004 – p.5/21 « Information Content » 2 Gamma(1,1) Gamma(1,2) Gamma(2,1) Gamma(2,2) Loi Gamma G(n, λ) 1.5 8 < 0 si x < 0 f (x) = : λn xn−1 e−λx sinon Γ(n) R +∞ −x n−1 avec Γ(x) = 0 e x dx n=1 ⇔ Loi Exponentielle λ = 1/2 ⇔ Loi du χ2 à 2 n ddl 1 0.5 0 0 1 2 3 4 5 6 7 8 Mini-Séminaire – Vendredi 19 novembre 2004 – p.5/21 « Information Content » 2 Gamma(1,1) Gamma(1,2) Gamma(2,1) Gamma(2,2) Loi Gamma G(n, λ) 1.5 8 < 0 si x < 0 f (x) = : λn xn−1 e−λx sinon Γ(n) R +∞ −x n−1 avec Γ(x) = 0 e x dx n=1 ⇔ Loi Exponentielle λ = 1/2 ⇔ Loi du χ2 à 2 n ddl 1 0.5 0 0 1 2 3 4 5 6 7 8 P RATT, « Sequence Logo », . . . Mini-Séminaire – Vendredi 19 novembre 2004 – p.5/21 Fonctions de score utilisées dans Matrices de similarité Mini-Séminaire – Vendredi 19 novembre 2004 – p.6/21 Fonctions de score utilisées dans Matrices de similarité « Information Content » Mini-Séminaire – Vendredi 19 novembre 2004 – p.6/21 Fonctions de score utilisées dans Matrices de similarité « Information Content » Fonctions « maisons » basées sur un découpage en blocs consécutifs de « matches » et de « mismatches » entre deux motifs alignés. Mini-Séminaire – Vendredi 19 novembre 2004 – p.6/21 Fonctions de score utilisées dans Matrices de similarité « Information Content » Fonctions « maisons » basées sur un découpage en blocs consécutifs de « matches » et de « mismatches » entre deux motifs alignés. 1 ACGTGCATCGATCGACTCGCATCGGTCAGT Mini-Séminaire – Vendredi 19 novembre 2004 – p.6/21 Fonctions de score utilisées dans Matrices de similarité « Information Content » Fonctions « maisons » basées sur un découpage en blocs consécutifs de « matches » et de « mismatches » entre deux motifs alignés. 1 ACGTGCATCGATCGACTCGCATCGGTCAGT 1 ACGCGCATCGACGGAGAACTCTCGGTCAGT Mini-Séminaire – Vendredi 19 novembre 2004 – p.6/21 Fonctions de score utilisées dans Matrices de similarité « Information Content » Fonctions « maisons » basées sur un découpage en blocs consécutifs de « matches » et de « mismatches » entre deux motifs alignés. 1 ACGTGCATCGATCGACTCGCATCGGTCAGT 1 ACGCGCATCGACGGAGAACTCTCGGTCAGT 1 .3.1...7....2.2...6......9.... Mini-Séminaire – Vendredi 19 novembre 2004 – p.6/21 Fonctions de score utilisées dans Matrices de similarité « Information Content » Fonctions « maisons » basées sur un découpage en blocs consécutifs de « matches » et de « mismatches » entre deux motifs alignés. 1 ACGTGCATCGATCGACTCGCATCGGTCAGT 1 ACGCGCATCGACGGAGAACTCTCGGTCAGT 1 .3.1...7....2.2...6......9.... Soient deux fonctions f = , f 6= strictement monotones définies sur [0, +∞[, le score est alors obtenu en appliquant f = et f 6= sur la taille des blocs consécutifs de « matches » et de « mismatches », et en additionnant leurs valeurs : Score := f = (3) + f 6= (1) + f = (7) + f 6= (2) + f = (2) + f 6= (6) + f = (9) Mini-Séminaire – Vendredi 19 novembre 2004 – p.6/21 Rappels de Statistiques Mini-Séminaire – Vendredi 19 novembre 2004 – p.7/21 Variables Aléatoires (1/4) Soit S un ensemble fondamental correspondant à une expérience. Les éléments de S sont les résultats possibles de l’expérience. Mini-Séminaire – Vendredi 19 novembre 2004 – p.8/21 Variables Aléatoires (1/4) Soit S un ensemble fondamental correspondant à une expérience. Les éléments de S sont les résultats possibles de l’expérience. S’il existe une application X : S → R, alors X est une Variable Aléatoire. Mini-Séminaire – Vendredi 19 novembre 2004 – p.8/21 Variables Aléatoires (1/4) Soit S un ensemble fondamental correspondant à une expérience. Les éléments de S sont les résultats possibles de l’expérience. S’il existe une application X : S → R, alors X est une Variable Aléatoire. X est dite discrète si elle est une application de S dans un sous-ensemble discret de R, continue sinon. Mini-Séminaire – Vendredi 19 novembre 2004 – p.8/21 Variables Aléatoires (1/4) Soit S un ensemble fondamental correspondant à une expérience. Les éléments de S sont les résultats possibles de l’expérience. S’il existe une application X : S → R, alors X est une Variable Aléatoire. X est dite discrète si elle est une application de S dans un sous-ensemble discret de R, continue sinon. Étant donné a ∈ R, et une relation <, l’évènement constitué de tous les résultats ξ d’expériences tels que X (ξ) < a est noté [X (ξ) < a] ou en abrégé X < a. Mini-Séminaire – Vendredi 19 novembre 2004 – p.8/21 Variables Aléatoires 2/4 Soit X une Variable Aléatoire Discrète. Mini-Séminaire – Vendredi 19 novembre 2004 – p.9/21 Variables Aléatoires 2/4 Soit X une Variable Aléatoire Discrète. On note Prob[X = x] la probabilité que le résultat de l’expérience S par l’application X soit égale à x. Mini-Séminaire – Vendredi 19 novembre 2004 – p.9/21 Variables Aléatoires 2/4 Soit X une Variable Aléatoire Discrète. On note Prob[X = x] la probabilité que le résultat de l’expérience S par l’application X soit égale à x. Nécessairement, on a +∞ X Prob[X = x] = 1. x=−∞ Mini-Séminaire – Vendredi 19 novembre 2004 – p.9/21 Variables Aléatoires 2/4 Soit X une Variable Aléatoire Discrète. On note Prob[X = x] la probabilité que le résultat de l’expérience S par l’application X soit égale à x. Nécessairement, on a +∞ X Prob[X = x] = 1. x=−∞ On dit que P définit la loi (ou distribution) de probabilité de la Variable Aléatoire Discrète X . Mini-Séminaire – Vendredi 19 novembre 2004 – p.9/21 Variables Aléatoires 3/4 Moyenne (ou espérance mathématique) 8 +∞ X < x × Prob[X = x]. On a µX = E[X ] = x=−∞ E[k × X ] = k × E[X ] : E[X + k] = E[X ] + k Mini-Séminaire – Vendredi 19 novembre 2004 – p.10/21 Variables Aléatoires 3/4 Moyenne (ou espérance mathématique) 8 +∞ X < x × Prob[X = x]. On a µX = E[X ] = x=−∞ Variance i h 2 2 = Var[X ] = E (X − µX ) σX 2 = E X − E2 [X ] E[k × X ] = k × E[X ] : E[X + k] = E[X ] + k (σX est aussi appelé l’écart-type de X .) Mini-Séminaire – Vendredi 19 novembre 2004 – p.10/21 Variables Aléatoires 3/4 Moyenne (ou espérance mathématique) 8 +∞ X < x × Prob[X = x]. On a µX = E[X ] = x=−∞ Variance i h 2 2 = Var[X ] = E (X − µX ) σX 2 = E X − E2 [X ] E[k × X ] = k × E[X ] : E[X + k] = E[X ] + k (σX est aussi appelé l’écart-type de X .) Fonction de répartition Donnée par F(x) = Prob[X ≤ x] = x X Prob[X = y]. y=−∞ Mini-Séminaire – Vendredi 19 novembre 2004 – p.10/21 Variables Aléatoires 4/4 À l’instar des Variables Aléatoires Discrètes, il est possible de calculer la moyenne, la variance (et l’écart-type), ainsi que Z de P donner la fonction de répartition, en substituant par . Mini-Séminaire – Vendredi 19 novembre 2004 – p.11/21 Variables Aléatoires 4/4 À l’instar des Variables Aléatoires Discrètes, il est possible de calculer la moyenne, la variance (et l’écart-type), ainsi que Z de P donner la fonction de répartition, en substituant par . Moyenne (ou espérance mathématique) Z +∞ x × Prob[X = x] dx µX = E[X ] = −∞ Mini-Séminaire – Vendredi 19 novembre 2004 – p.11/21 Variables Aléatoires 4/4 À l’instar des Variables Aléatoires Discrètes, il est possible de calculer la moyenne, la variance (et l’écart-type), ainsi que Z de P donner la fonction de répartition, en substituant par . Moyenne (ou espérance mathématique) Z +∞ x × Prob[X = x] dx µX = E[X ] = −∞ Variance i h 2 2 2 σX = Var[X ] = E (X − µX ) = E X − E2 [X ] Mini-Séminaire – Vendredi 19 novembre 2004 – p.11/21 Variables Aléatoires 4/4 À l’instar des Variables Aléatoires Discrètes, il est possible de calculer la moyenne, la variance (et l’écart-type), ainsi que Z de P donner la fonction de répartition, en substituant par . Moyenne (ou espérance mathématique) Z +∞ x × Prob[X = x] dx µX = E[X ] = −∞ Variance i h 2 2 2 σX = Var[X ] = E (X − µX ) = E X − E2 [X ] Fonction de répartition Z x F(x) = Prob[X ≤ x] = Prob[X = y] dy −∞ Mini-Séminaire – Vendredi 19 novembre 2004 – p.11/21 Moments On appelle Moment d’ordre k de la V.A. X la valeur mk (X ) = E X k . Mini-Séminaire – Vendredi 19 novembre 2004 – p.12/21 Moments On appelle Moment d’ordre k de la V.A. X la valeur mk (X ) = E X k . Ainsi, le moment d’ordre 1 de la V.A. X correspond à sa moyenne. Mini-Séminaire – Vendredi 19 novembre 2004 – p.12/21 Moments On appelle Moment d’ordre k de la V.A. X la valeur mk (X ) = E X k . Ainsi, le moment d’ordre 1 de la V.A. X correspond à sa moyenne. On appelle Momentcentré d’ordre k de la V.A. X la valeur µk (X ) = E (X − E[X ])k . Mini-Séminaire – Vendredi 19 novembre 2004 – p.12/21 Moments On appelle Moment d’ordre k de la V.A. X la valeur mk (X ) = E X k . Ainsi, le moment d’ordre 1 de la V.A. X correspond à sa moyenne. On appelle Momentcentré d’ordre k de la V.A. X la valeur µk (X ) = E (X − E[X ])k . Ainsi, le moment centré d’ordre 2 de la V.A. X correspond à sa variance. Mini-Séminaire – Vendredi 19 novembre 2004 – p.12/21 Séries génératrices 1/2 La série génératrice. . . Mini-Séminaire – Vendredi 19 novembre 2004 – p.13/21 Séries génératrices 1/2 La série génératrice. . . . . . de moments Mini-Séminaire – Vendredi 19 novembre 2004 – p.13/21 Séries génératrices 1/2 La série génératrice. . . . . . de moments . . . probabilisée Mini-Séminaire – Vendredi 19 novembre 2004 – p.13/21 Séries génératrices 1/2 La série génératrice. . . . . . de moments . . . probabilisée . . . à une variable associée à un ensemble de mots L Mini-Séminaire – Vendredi 19 novembre 2004 – p.13/21 Séries génératrices 1/2 La série génératrice. . . . . . de moments . . . probabilisée . . . à une variable associée à un ensemble de mots L est définie par Mini-Séminaire – Vendredi 19 novembre 2004 – p.13/21 Séries génératrices 1/2 La série génératrice. . . . . . de moments . . . probabilisée . . . à une variable associée à un ensemble de mots L est définie par L(z) := X pw z |w| w∈L Mini-Séminaire – Vendredi 19 novembre 2004 – p.13/21 Séries génératrices 1/2 La série génératrice. . . . . . de moments . . . probabilisée . . . à une variable associée à un ensemble de mots L est définie par L(z) := X w∈L pw z |w| = X n≥0 z n X pw . w∈L,|w|=n Mini-Séminaire – Vendredi 19 novembre 2004 – p.13/21 Séries génératrices 1/2 La série génératrice. . . . . . de moments . . . probabilisée . . . à une variable associée à un ensemble de mots L est définie par L(z) := X w∈L pw z |w| = X n≥0 z n X pw . w∈L,|w|=n On dénote par [z n ]L(z) le coefficient de z n dans la somme formelle L(z). Mini-Séminaire – Vendredi 19 novembre 2004 – p.13/21 Séries génératrices 1/2 La série génératrice. . . . . . de moments . . . probabilisée . . . à une variable associée à un ensemble de mots L est définie par L(z) := X w∈L pw z |w| = X n≥0 z n X pw . w∈L,|w|=n On dénote par [z n ]L(z) le coefficient de z n dans la somme formelle L(z). Exemple, la série génératrice associée à Σ∗ est F (z) = 1 1−z . Mini-Séminaire – Vendredi 19 novembre 2004 – p.13/21 Séries génératrices 2/2 La série génératrice de la fonction de coût S(w) est la série double (probabilisée) formelle L(z, u) associée à l’ensemble L suivante : L(z, u) := X pw uS(w) z |w| w∈L Mini-Séminaire – Vendredi 19 novembre 2004 – p.14/21 Séries génératrices 2/2 La série génératrice de la fonction de coût S(w) est la série double (probabilisée) formelle L(z, u) associée à l’ensemble L suivante : L(z, u) := X w∈L pw u S(w) |w| z = X n≥0 z n X pw uS(w) . w∈L,|w|=n Mini-Séminaire – Vendredi 19 novembre 2004 – p.14/21 Séries génératrices 2/2 La série génératrice de la fonction de coût S(w) est la série double (probabilisée) formelle L(z, u) associée à l’ensemble L suivante : L(z, u) := X pw u S(w) |w| z = w∈L E[Sn ] := X |w|=n X n≥0 z n X pw uS(w) . w∈L,|w|=n ˛ ˛ ∂ n pw S(w) = [z ] L(z, u)˛˛ ∂u u=1 Var[Sn ] X |w|=n pw S(w)2 = [z n ] „ ˛ ˛ « ˛ ˛ ∂2 ∂ L(z, u)˛˛ L(z, u)˛˛ + 2 ∂u ∂u u=1 u=1 Mini-Séminaire – Vendredi 19 novembre 2004 – p.14/21 Séries génératrices 2/2 La série génératrice de la fonction de coût S(w) est la série double (probabilisée) formelle L(z, u) associée à l’ensemble L suivante : L(z, u) := X pw u S(w) |w| z = w∈L E[Sn ] := X |w|=n Var[Sn ] = E X ˆ 2 Sn n≥0 z n X pw uS(w) . w∈L,|w|=n ˛ ˛ ∂ n pw S(w) = [z ] L(z, u)˛˛ ∂u u=1 ˜ |w|=n X − E2 [Sn ] pw S(w)2 = [z n ] „ ˛ ˛ « ˛ ˛ ∂2 ∂ L(z, u)˛˛ L(z, u)˛˛ + 2 ∂u ∂u u=1 u=1 Mini-Séminaire – Vendredi 19 novembre 2004 – p.14/21 Séries génératrices 2/2 La série génératrice de la fonction de coût S(w) est la série double (probabilisée) formelle L(z, u) associée à l’ensemble L suivante : L(z, u) := X pw u S(w) |w| z = w∈L E[Sn ] := X |w|=n Var[Sn ] E Sn ˆ ˜ 2 = := E ˆ 2 Sn X n≥0 z n X pw uS(w) . w∈L,|w|=n ˛ ˛ ∂ n pw S(w) = [z ] L(z, u)˛˛ ∂u u=1 ˜ |w|=n X − E2 [Sn ] pw S(w)2 = [z n ] „ ∂2 ˛ ˛ ˛ L(z, u) ˛ 2 ∂u u=1 ˛ ˛ ∂ L(z, u)˛˛ + ∂u u=1 « Mini-Séminaire – Vendredi 19 novembre 2004 – p.14/21 Séries génératrices 2/2 La série génératrice de la fonction de coût S(w) est la série double (probabilisée) formelle L(z, u) associée à l’ensemble L suivante : L(z, u) := X pw u S(w) |w| z = w∈L E[Sn ] := X |w|=n Var[Sn ] E Sn ˆ ˜ 2 = := E ˆ 2 Sn X n≥0 z n X pw uS(w) . w∈L,|w|=n ˛ ˛ ∂ n pw S(w) = [z ] L(z, u)˛˛ ∂u u=1 ˜ |w|=n X − E2 [Sn ] pw S(w)2 = [z n ] „ ∂2 ˛ ˛ ˛ L(z, u) ˛ 2 ∂u u=1 ˛ ˛ ∂ L(z, u)˛˛ + ∂u u=1 « Il reste juste simplement à trouver une expression de L(z, u) et de ses dérivées afin de facilement extraire le coefficient de z n . Mini-Séminaire – Vendredi 19 novembre 2004 – p.14/21 Étude statistique des fonctions de score utilisées dans Mini-Séminaire – Vendredi 19 novembre 2004 – p.15/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 Décomposition de L = {0, 1}∗ Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 ∗ Décomposition de L = {0, 1}∗ = 0∗ (1+ 0+ ) 1∗ . Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 ∗ Décomposition de L = {0, 1}∗ = 0∗ (1+ 0+ ) 1∗ . Fonctions strictement monotones définies sur [0, +∞[ appliquées à la taille des blocs de « matches » (1+ ) à la taille des blocs de « mismatches » (0+ ) Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 ∗ Décomposition de L = {0, 1}∗ = 0∗ (1+ 0+ ) 1∗ . Fonctions strictement monotones définies sur [0, +∞[ appliquées à la taille des blocs de « matches » (1+ ) : f = à la taille des blocs de « mismatches » (0+ ) Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 ∗ Décomposition de L = {0, 1}∗ = 0∗ (1+ 0+ ) 1∗ . Fonctions strictement monotones définies sur [0, +∞[ appliquées à la taille des blocs de « matches » (1+ ) : f = à la taille des blocs de « mismatches » (0+ ) : f 6= Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 ∗ Décomposition de L = {0, 1}∗ = 0∗ (1+ 0+ ) 1∗ . Fonctions strictement monotones définies sur [0, +∞[ appliquées à la taille des blocs de « matches » (1+ ) : f = à la taille des blocs de « mismatches » (0+ ) : f 6= Décomposition de la série L(z, u) Série associée à l’ensemble 1+ Série associée à l’ensemble 0+ Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 ∗ Décomposition de L = {0, 1}∗ = 0∗ (1+ 0+ ) 1∗ . Fonctions strictement monotones définies sur [0, +∞[ appliquées à la taille des blocs de « matches » (1+ ) : f = à la taille des blocs de « mismatches » (0+ ) : f 6= Décomposition de la série L(z, u) X k f = (k) k + Série associée à l’ensemble 1 : S1 (z, u) := p1 u z . k>0 Série associée à l’ensemble 0+ Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 ∗ Décomposition de L = {0, 1}∗ = 0∗ (1+ 0+ ) 1∗ . Fonctions strictement monotones définies sur [0, +∞[ appliquées à la taille des blocs de « matches » (1+ ) : f = à la taille des blocs de « mismatches » (0+ ) : f 6= Décomposition de la série L(z, u) X k f = (k) k + Série associée à l’ensemble 1 : S1 (z, u) := p1 u z . k>0 Série associée à l’ensemble 0 + : S0 (z, u) := X k f 6= (k) k p0 u z . k>0 Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 ∗ Décomposition de L = {0, 1}∗ = 0∗ (1+ 0+ ) 1∗ . Fonctions strictement monotones définies sur [0, +∞[ appliquées à la taille des blocs de « matches » (1+ ) : f = à la taille des blocs de « mismatches » (0+ ) : f 6= Décomposition de la série L(z, u) X k f = (k) k + Série associée à l’ensemble 1 : S1 (z, u) := p1 u z . k>0 Série associée à l’ensemble 0 Série L(z, u) associée à L + : S0 (z, u) := X k f 6= (k) k p0 u z . k>0 Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Définition de la série génératrice Un « match » ⇔ 1 peut se produire avec une probabilité p1 Un « mismatch » ⇔ 0 peut se produire avec une probabilité p0 ∗ Décomposition de L = {0, 1}∗ = 0∗ (1+ 0+ ) 1∗ . Fonctions strictement monotones définies sur [0, +∞[ appliquées à la taille des blocs de « matches » (1+ ) : f = à la taille des blocs de « mismatches » (0+ ) : f 6= Décomposition de la série L(z, u) X k f = (k) k + Série associée à l’ensemble 1 : S1 (z, u) := p1 u z . k>0 Série associée à l’ensemble 0 Série L(z, u) associée à L : + : S0 (z, u) := X k f 6= (k) k p0 u z . k>0 1 · (1 + S1 (z, u)). L(z, u) = (1 + S0 (z, u)) · 1 − S1 (z, u)S0 (z, u) Mini-Séminaire – Vendredi 19 novembre 2004 – p.16/21 Propriétés de la série génératrice Les séries S0 et S1 satisfont Mini-Séminaire – Vendredi 19 novembre 2004 – p.17/21 Propriétés de la série génératrice Les séries S0 et S1 satisfont p0 z , S0 (z, 1) = 1 − p0 z Mini-Séminaire – Vendredi 19 novembre 2004 – p.17/21 Propriétés de la série génératrice Les séries S0 et S1 satisfont p0 z , S0 (z, 1) = 1 − p0 z p1 z S1 (z, 1) = , 1 − p1 z Mini-Séminaire – Vendredi 19 novembre 2004 – p.17/21 Propriétés de la série génératrice Les séries S0 et S1 satisfont p0 z p1 z , S1 (z, 1) = , S0 (z, 1) = 1 − p0 z 1 − p1 z X ∂ = pk0 f 6= (k)z k S0 (z, u) ∂u u=1 k>0 Mini-Séminaire – Vendredi 19 novembre 2004 – p.17/21 Propriétés de la série génératrice Les séries S0 et S1 satisfont p0 z p1 z , S1 (z, 1) = , S0 (z, 1) = 1 − p0 z 1 − p1 z X ∂ = pk0 f 6= (k)z k et S0 (z, u) ∂u u=1 k>0 2 X ∂ ∂ k 6= 2 k S + (z, u) = p (f (k)) z 0 0 2 ∂u ∂u u=1 k>0 Mini-Séminaire – Vendredi 19 novembre 2004 – p.17/21 Moyenne / Variance 8 > c1 > > > > > > > > > > c1 > > > > > > < Soient c2 > > > > > > > > > c3 > > > > > > > > : (2) c1 := s00 p21 + s01 p20 := s00 p21 + s01 p20 := p0 p1 (s00 + s01 ) := p0 p1 s00 s01 := 2 00 2 s00 0 p1 + s 1 p0 Mini-Séminaire – Vendredi 19 novembre 2004 – p.18/21 Moyenne / Variance 8 > c1 > > > > > > > > > > c1 > > > > > > < Soient c2 > > > > > > > > > c3 > > > > > > > > : (2) c1 := := := := := s00 p21 + s01 p20 s00 p21 + s01 p20 p0 p1 (s00 + s01 ) p0 p1 s00 s01 2 00 2 s00 0 p1 + s 1 p0 avec 8 > s00 > > > > > > > > > > > s01 > > > > > > > > > 0 > s > > < 0 > > s01 > > > > > > > > > > > s00 > 0 > > > > > > > > 00 > > : s1 := := := := := ˛ ˛ ∂ S (z, u) ˛ 0 ∂u z=1,u=1 ˛ ˛ ∂ S (z, u) ˛ 1 ∂u z=1,u=1 ˛ ˛ ∂ ∂ S (z, u)˛ ∂z ∂u 0 z=1,u=1 ˛ ˛ ∂ ∂ S (z, u) ˛ 1 ∂z ∂u z=1,u=1 X pk0 f 6= (k) (f 6= (k) − 1) X pk1 f = (k) (f = (k) − 1) k>0 := k>0 Mini-Séminaire – Vendredi 19 novembre 2004 – p.18/21 Moyenne / Variance 8 > c1 > > > > > > > > > > c1 > > > > > > < Soient c2 > > > > > > > > > c3 > > > > > > > > : (2) c1 := := := := := s00 p21 + s01 p20 s00 p21 + s01 p20 p0 p1 (s00 + s01 ) p0 p1 s00 s01 2 00 2 s00 0 p1 + s 1 p0 avec 8 > s00 > > > > > > > > > > > s01 > > > > > > > > > 0 > s > > < 0 > > s01 > > > > > > > > > > > s00 > 0 > > > > > > > > 00 > > : s1 := := := := := ˛ ˛ ∂ S (z, u) ˛ 0 ∂u z=1,u=1 ˛ ˛ ∂ S (z, u) ˛ 1 ∂u z=1,u=1 ˛ ˛ ∂ ∂ S (z, u)˛ ∂z ∂u 0 z=1,u=1 ˛ ˛ ∂ ∂ S (z, u) ˛ 1 ∂z ∂u z=1,u=1 X pk0 f 6= (k) (f 6= (k) − 1) X pk1 f = (k) (f = (k) − 1) k>0 := k>0 Expression de la moyenne : E[Sn ] = n c1 + 2 c2 + c1 − c1 + o(1). Mini-Séminaire – Vendredi 19 novembre 2004 – p.18/21 Moyenne / Variance 8 > c1 > > > > > > > > > > c1 > > > > > > < Soient c2 > > > > > > > > > c3 > > > > > > > > : (2) c1 := := := := := s00 p21 + s01 p20 s00 p21 + s01 p20 p0 p1 (s00 + s01 ) p0 p1 s00 s01 2 00 2 s00 0 p1 + s 1 p0 avec 8 > s00 > > > > > > > > > > > s01 > > > > > > > > > 0 > s > > < 0 > > s01 > > > > > > > > > > > s00 > 0 > > > > > > > > 00 > > : s1 := := := := := ˛ ˛ ∂ S (z, u) ˛ 0 ∂u z=1,u=1 ˛ ˛ ∂ S (z, u) ˛ 1 ∂u z=1,u=1 ˛ ˛ ∂ ∂ S (z, u)˛ ∂z ∂u 0 z=1,u=1 ˛ ˛ ∂ ∂ S (z, u) ˛ 1 ∂z ∂u z=1,u=1 X pk0 f 6= (k) (f 6= (k) − 1) X pk1 f = (k) (f = (k) − 1) k>0 := k>0 Expression de la moyenne : E[Sn ] = n c1 + 2 c2 + c1 − c1 + o(1). Expression de la variance : Var[Sn ] = n[c21 + c1 + 2 c3 − c21 − 2 c1 c1 + 2 c1 c2 ] + o(n). Mini-Séminaire – Vendredi 19 novembre 2004 – p.18/21 Moyenne / Variance 8 > c1 > > > > > > > > > > c1 > > > > > > < Soient c2 > > > > > > > > > c3 > > > > > > > > : (2) c1 := := := := := s00 p21 + s01 p20 s00 p21 + s01 p20 p0 p1 (s00 + s01 ) p0 p1 s00 s01 2 00 2 s00 0 p1 + s 1 p0 avec 8 > s00 > > > > > > > > > > > s01 > > > > > > > > > 0 > s > > < 0 > > s01 > > > > > > > > > > > s00 > 0 > > > > > > > > 00 > > : s1 = X f 6= (k)pk0 X f = (k)pk1 X kf 6= (k)pk0 X kf = (k)pk1 X pk0 f 6= (k) (f 6= (k) − 1) X pk1 f = (k) (f = (k) − 1) k>0 = k>0 = k>0 = k>0 := k>0 := k>0 Expression de la moyenne : E[Sn ] = n c1 + 2 c2 + c1 − c1 + o(1). Expression de la variance : Var[Sn ] = n[c21 + c1 + 2 c3 − c21 − 2 c1 c1 + 2 c1 c2 ] + o(n). Mini-Séminaire – Vendredi 19 novembre 2004 – p.18/21 Distribution Idée de la distribution ? Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution ? Tests : Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution ? Tests : échantillons de 20000 mesures de score pour des séquences de taille 1000. Source sans mémoire Bacillus Subtilis Moyenne Loi Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution ? Tests : échantillons de 20000 mesures de score pour des séquences de taille 1000. Source sans mémoire 500 Bacillus Subtilis Points experimentaux Moyenne Theorique (-.333*n-0.222) 0 -500 -1000 Moyenne -1500 -2000 -2500 -3000 -3500 -4000 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Loi Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution ? Tests : échantillons de 20000 mesures de score pour des séquences de taille 1000. Source sans mémoire 500 500 Points experimentaux Moyenne Theorique (-.333*n-0.222) -500 -500 -1000 -1000 -1500 -1500 -2000 -2000 -2500 -2500 -3000 -3000 -3500 -3500 -4000 Points experimentaux Moyenne Theorique (-.318*n-0.232) 0 0 Moyenne Bacillus Subtilis -4000 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Loi Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution ? Tests : échantillons de 20000 mesures de score pour des séquences de taille 1000. Source sans mémoire 500 500 Points experimentaux Moyenne Theorique (-.333*n-0.222) 0 Moyenne Bacillus Subtilis -500 -500 -1000 -1000 -1500 -1500 -2000 -2000 -2500 -2500 -3000 -3000 -3500 -4000 Points experimentaux Moyenne Theorique (-.318*n-0.232) 0 -3500 0 1000 2000 3000 4000 5000 6000 7000 1 8000 9000 10000 -4000 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Loi Centree exp. Loi normale N(0,1) 0.9 0.8 0.7 Loi 0.6 0.5 0.4 0.3 0.2 0.1 0 -6 -4 -2 0 2 4 6 Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution ? Tests : échantillons de 20000 mesures de score pour des séquences de taille 1000. Source sans mémoire 500 Bacillus Subtilis 500 Points experimentaux Moyenne Theorique (-.333*n-0.222) 0 Moyenne -500 -500 -1000 -1000 -1500 -1500 -2000 -2000 -2500 -2500 -3000 -3000 -3500 -4000 -3500 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Loi Centree exp. Loi normale N(0,1) 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Loi centree exp. Loi Normale N(0,1) 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 -4000 1 1 Loi Points experimentaux Moyenne Theorique (-.318*n-0.232) 0 0 -6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6 Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution : Gaussienne. Tests : échantillons de 20000 mesures de score pour des séquences de taille 1000. Source sans mémoire 500 Bacillus Subtilis 500 Points experimentaux Moyenne Theorique (-.333*n-0.222) 0 Moyenne -500 -500 -1000 -1000 -1500 -1500 -2000 -2000 -2500 -2500 -3000 -3000 -3500 -4000 -3500 0 1000 2000 3000 4000 5000 6000 7000 1 Loi 8000 9000 10000 -4000 0 1000 2000 3000 4000 5000 6000 7000 1 Loi Centree exp. Loi normale N(0,1) 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0 Points experimentaux Moyenne Theorique (-.318*n-0.232) 0 8000 9000 10000 Loi centree exp. Loi Normale N(0,1) 0.1 -6 -4 -2 0 2 4 6 0 -6 -4 -2 0 2 4 6 Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution : Gaussienne. Tests : échantillons de 20000 mesures de score pour des séquences de taille 1000. Source sans mémoire 500 Bacillus Subtilis 500 Points experimentaux Moyenne Theorique (-.333*n-0.222) 0 Moyenne -500 -500 -1000 -1000 -1500 -1500 -2000 -2000 -2500 -2500 -3000 -3000 -3500 -4000 -3500 0 1000 2000 3000 4000 5000 6000 7000 1 Loi 8000 9000 10000 -4000 0 1000 2000 3000 4000 5000 6000 7000 1 Loi Centree exp. Loi normale N(0,1) 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0 Points experimentaux Moyenne Theorique (-.318*n-0.232) 0 8000 9000 10000 Loi centree exp. Loi Normale N(0,1) 0.1 -6 -4 -2 0 2 4 6 0 -6 -4 -2 0 2 4 6 Idée de la preuve ? Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution : Gaussienne. Tests : échantillons de 20000 mesures de score pour des séquences de taille 1000. Source sans mémoire 500 Bacillus Subtilis 500 Points experimentaux Moyenne Theorique (-.333*n-0.222) 0 Moyenne -500 -500 -1000 -1000 -1500 -1500 -2000 -2000 -2500 -2500 -3000 -3000 -3500 -4000 -3500 0 1000 2000 3000 4000 5000 6000 7000 1 Loi 8000 9000 10000 -4000 0 1000 2000 3000 4000 5000 6000 7000 1 Loi Centree exp. Loi normale N(0,1) 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0 Points experimentaux Moyenne Theorique (-.318*n-0.232) 0 8000 9000 10000 Loi centree exp. Loi Normale N(0,1) 0.1 -6 -4 -2 0 2 4 6 0 -6 -4 -2 0 2 4 6 Idée de la preuve Utilisation de la fonction caractéristique φX associée à la V.A. X définie par ˜ ˆ φX (t) := E eitX pour tout t ∈ R ; sachant que la fonction caractéristique d’une V.A. gaussienne centrée réduite est e−t 2 /2 . Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution Idée de la distribution : Gaussienne. Tests : échantillons de 20000 mesures de score pour des séquences de taille 1000. Source sans mémoire 500 Bacillus Subtilis 500 Points experimentaux Moyenne Theorique (-.333*n-0.222) 0 Moyenne -500 -500 -1000 -1000 -1500 -1500 -2000 -2000 -2500 -2500 -3000 -3000 -3500 -4000 -3500 0 1000 2000 3000 4000 5000 6000 7000 1 Loi 8000 9000 10000 -4000 0 1000 2000 3000 4000 5000 6000 7000 1 Loi Centree exp. Loi normale N(0,1) 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0 Points experimentaux Moyenne Theorique (-.318*n-0.232) 0 8000 9000 10000 Loi centree exp. Loi Normale N(0,1) 0.1 -6 -4 -2 0 2 4 6 0 -6 -4 -2 0 2 4 6 Idée de la preuve : Démo du Théorème Central Limite Utilisation de la fonction caractéristique φX associée à la V.A. X définie par ˜ ˆ φX (t) := E eitX pour tout t ∈ R ; sachant que la fonction caractéristique d’une V.A. gaussienne centrée réduite est e−t 2 /2 . Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Conclusions & Perspectives Mini-Séminaire – Vendredi 19 novembre 2004 – p.20/21 Ce qu’il reste à faire. . . Prouver que les fonctions de scores suivent une loi normale. Mini-Séminaire – Vendredi 19 novembre 2004 – p.21/21 Ce qu’il reste à faire. . . Prouver que les fonctions de scores suivent une loi normale. Étendre les résultats aux opérateurs générateurs. Mini-Séminaire – Vendredi 19 novembre 2004 – p.21/21 Ce qu’il reste à faire. . . Prouver que les fonctions de scores suivent une loi normale. Étendre les résultats aux opérateurs générateurs. Intégrer ces résultats dans : Mini-Séminaire – Vendredi 19 novembre 2004 – p.21/21 Ce qu’il reste à faire. . . Prouver que les fonctions de scores suivent une loi normale. Étendre les résultats aux opérateurs générateurs. Intégrer ces résultats dans : afin d’améliorer les résultats, Mini-Séminaire – Vendredi 19 novembre 2004 – p.21/21 Ce qu’il reste à faire. . . Prouver que les fonctions de scores suivent une loi normale. Étendre les résultats aux opérateurs générateurs. Intégrer ces résultats dans : afin d’améliorer les résultats, afin de diminuer les temps de calcul, Mini-Séminaire – Vendredi 19 novembre 2004 – p.21/21 Ce qu’il reste à faire. . . Prouver que les fonctions de scores suivent une loi normale. Étendre les résultats aux opérateurs générateurs. Intégrer ces résultats dans : afin d’améliorer les résultats, afin de diminuer les temps de calcul, afin d’intégrer la notion de quorum. Mini-Séminaire – Vendredi 19 novembre 2004 – p.21/21 Ce qu’il reste à faire. . . Prouver que les fonctions de scores suivent une loi normale. Étendre les résultats aux opérateurs générateurs. Intégrer ces résultats dans : afin d’améliorer les résultats, afin de diminuer les temps de calcul, afin d’intégrer la notion de quorum. Calculer la complexité moyenne de . Mini-Séminaire – Vendredi 19 novembre 2004 – p.21/21 Moyenne – Source sans mémoire 500 Points experimentaux Moyenne Theorique (-.333*n-0.222) 0 -500 -1000 -1500 -2000 -2500 -3000 -3500 -4000 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution – Source sans mémoire 1 Loi Centree exp. Loi normale N(0,1) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -6 -4 -2 0 2 4 6 Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Moyenne – Bacillus Subtilis 500 Points experimentaux Moyenne Theorique (-.318*n-0.232) 0 -500 -1000 -1500 -2000 -2500 -3000 -3500 -4000 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21 Distribution – Bacillus Subtilis 1 Loi centree exp. Loi Normale N(0,1) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -6 -4 -2 0 2 4 6 Mini-Séminaire – Vendredi 19 novembre 2004 – p.19/21