Introduction Algorithme de contexte Critères de sélection de modèle Résultats Estimation des arbres de Contextes via les Critères BIC et MDL . Bezza Hafidi, Véronique Maume-Deschamps Institut de Mathématiques de Bourgogne 22 Mars, 2007 1 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Plan Introduction 2 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Plan Introduction Algorithme de contexte 3 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Plan Introduction Algorithme de contexte Critères de sélection de Modèle 4 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Plan Introduction Algorithme de contexte Critères de sélection de Modèle Résultats 5 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Problématique Soit A un alphabet fini, x1n = x1 , ...., xn une suite finie de mots dans A. Comment construire un modèle qui pourra produire cette suite ? 6 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Problématique Soit A un alphabet fini, x1n = x1 , ...., xn une suite finie de mots dans A. Comment construire un modèle qui pourra produire cette suite ? Chaine de Markov : chaine d’ordre k ⇒ une matrice |A|k × |A| et r k +1 paramètres à estimer. (r = |A|). 7 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Problématique Soit A un alphabet fini, x1n = x1 , ...., xn une suite finie de mots dans A. Comment construire un modèle qui pourra produire cette suite ? Chaine de Markov : chaine d’ordre k ⇒ une matrice |A|k × |A| et r k +1 paramètres à estimer. (r = |A|). VLMC = Chaine de Markov à longueur variable. Idée : étant donné une chaine de Markov d’ordre k, la connaissance de toute mémoire de longueur k n’est pas nécessaire ⇒ arbres de contextes. 8 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Problématique Soit A un alphabet fini, x1n = x1 , ...., xn une suite finie de mots dans A. Comment construire un modèle qui pourra produire cette suite ? Chaine de Markov : chaine d’ordre k ⇒ une matrice |A|k × |A| et r k +1 paramètres à estimer. (r = |A|). VLMC = Chaine de Markov à longueur variable. Idée : étant donné une chaine de Markov d’ordre k, la connaissance de toute mémoire de longueur k n’est pas nécessaire ⇒ arbres de contextes. VLMC introduites par Rissanen en utilisant la thèorie de l’information. Récemment, étudiées par Bülman and Wyner du point de vue statistique. 9 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Contexte Soit (Xn )n∈Z un processus stationnaire, prenant ses valeurs dans A, Contexte : −1 Un mot fini x− k de longueur minimal tel que pour tout a ∈ A, −1 −1 P(X0 = a | X−∞ = x−∞ ) = P(X0 = a | X−−k1 = x−−k1 ) def = P(X0 = a | X−k = x−k , . . . , X−1 = x−1 ) = p(a | x−−k1 ). (1) 10 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Contexte Soit (Xn )n∈Z un processus stationnaire, prenant ses valeurs dans A, Contexte : −1 Un mot fini x− k de longueur minimal tel que pour tout a ∈ A, −1 −1 P(X0 = a | X−∞ = x−∞ ) = P(X0 = a | X−−k1 = x−−k1 ) def = P(X0 = a | X−k = x−k , . . . , X−1 = x−1 ) = p(a | x−−k1 ). (1) −1 −1 S’il existe, pour tout vecteur du passé x−∞ , un indice k = k (x−∞ ) tel que (1) est vérifié, alors le processus (Xn )n∈Z est appelé VLMC. 11 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Contexte Soit (Xn )n∈Z un processus stationnaire, prenant ses valeurs dans A, Contexte : −1 Un mot fini x− k de longueur minimal tel que pour tout a ∈ A, −1 −1 P(X0 = a | X−∞ = x−∞ ) = P(X0 = a | X−−k1 = x−−k1 ) def = P(X0 = a | X−k = x−k , . . . , X−1 = x−1 ) = p(a | x−−k1 ). (1) −1 −1 S’il existe, pour tout vecteur du passé x−∞ , un indice k = k (x−∞ ) tel que (1) est vérifié, alors le processus (Xn )n∈Z est appelé VLMC. τ est l’ensemble de tous les contextes de la VLMC, proprièté du suffixe ⇒ peut être représenté par un arbre. 12 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Arbre de contexte, VLMC X−1 = 0 1 X−2 = 0 X−3 = 0 1 4 3 4 Soit A = {0, 1} Les mots : 000, 100, 01, 11 sont des contextes. 0 1 2 X−3 = 1 1 2 1 2 1 2 1 3 4 P(X0 = 1|X−3 = 1, X−2 = 0, X−1 = 0) 1 4 1 = p(1|100) = , 2 p(0|100) = 21 , p(1|011) = p(1|11). 13 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Arbre de contexte, VLMC X−1 = 0 1 X−2 = 0 X−3 = 0 1 4 3 4 Soit A = {0, 1} Les mots : 000, 100, 01, 11 sont des contextes. 0 1 2 X−3 = 1 1 2 1 2 1 2 1 3 4 P(X0 = 1|X−3 = 1, X−2 = 0, X−1 = 0) 1 4 1 = p(1|100) = , 2 p(0|100) = 21 , p(1|011) = p(1|11). Estimation de (τ, pτ ) ? 14 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Probabilités empirique Soit (X1 , . . . , Xn ) un échantillon fini et w un caractère de longueur inférieur à n. Nn (w ) est le nombre d’occurences de w dans la séquence (X1 , . . . , Xn ) : n−|w | Nn (w ) = ∑ m+|w |−1 1{Xm = w }. m =1 15 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Probabilités empirique Soit (X1 , . . . , Xn ) un échantillon fini et w un caractère de longueur inférieur à n. Nn (w ) est le nombre d’occurences de w dans la séquence (X1 , . . . , Xn ) : n−|w | Nn (w ) = ∑ m+|w |−1 1{Xm = w }. m =1 La probabilité de transition empirique p̂n (a|w ) est définie par : p̂n (a|w ) = Nn (wa) Nn (w ) . 16 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Algorithme de contexte Etant donnée deux mots u et w, ∆n (u , w ) = ∑ p̂n (a|wu) log a∈A p̂n (a|wu ) p̂n (a|w ) Nn (wu ) est la mesure de l’information fournie par u relativement à w. Remarque : si w est contexte alors, pour tout u, pτ (a|w ) = pτ (a|uw ). 17 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Algorithme de contexte II Algorithme : considère tous les caractères de longueur ℓ, comme un arbre, élaguer l’arbre comme le suivant : calculer ∆n (a, w ), pour tout noeud w et une lettre a. Si ∆n (a, w ) ≤ δ, couper tous les sous-arbres. w ∆n (a, w ) ≤ δ ∆n (a, w ) ≤ δ. 18 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Algorithme de contexte II Algorithme : considère tous les caractères de longueur ℓ, comme un arbre, élaguer l’arbre comme le suivant : calculer ∆n (a, w ), pour tout noeud w et une lettre a. Si ∆n (a, w ) ≤ δ, couper tous les sous-arbres. w ∆n (a, w ) ≤ δ. 19 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Algorithme de contexte II Algorithme : considère tous les caractères de longueur ℓ, comme un arbre, élaguer l’arbre comme le suivant : calculer ∆n (a, w ), pour tout noeud w et une lettre a. Si ∆n (a, w ) ≤ δ, couper tous les sous-arbres. ∆n (a, w ) ≤ δ. 20 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Algorithme de contexte II Algorithme : considère tous les caractères de longueur ℓ, comme un arbre, élaguer l’arbre comme le suivant : calculer ∆n (a, w ), pour tout noeud w et une lettre a. Si ∆n (a, w ) ≤ δ, couper tous les sous-arbres. ∆n (a, w ) ≤ δ. 21 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Algorithme de contexte II Algorithme : considère tous les caractères de longueur ℓ, comme un arbre, élaguer l’arbre comme le suivant : calculer ∆n (a, w ), pour tout noeud w et une lettre a. Si ∆n (a, w ) ≤ δ, couper tous les sous-arbres. ∆n (a, w ) ≤ δ. Libeler les feuilles par les probabilités empiriques p̂n (a|w ). 22 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Arbre empirique Soit δ > 0, ℓ ∈ N, Arbre empirique : τ̂n (ℓ) = l’ensemble maximum de tous les −1 caractères finis x− k , 1 ≤ k ≤ ℓ tq pour tout j ≤ k ∆n (x−j , x−−j1+1 ) > δ. Comment choisir δ, ℓ, tq τ̂n approxime τ ? Dans quel sens (τ̂n (ℓ), p̂n ) approxime (τ, pτ ) ? 23 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Critère BIC Sélection de modèle : trouver l’arbre qui minimise certains critères d’information. P̃ML,w (x1n ) =∏ a∈A Nn (w , a) Nn (w ) Nn (w ,a) , P̃w (x1n ) = n− |A|−1 2 P̃ML,w (x1n ), 24 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Critère BIC Sélection de modèle : trouver l’arbre qui minimise certains critères d’information. P̃ML,w (x1n ) =∏ a∈A BICτ (x1n ) = − Nn (w , a) Nn (w ) ∑ Nn (w ,a) w ∈τ,Nn (w )≥1 , P̃w (x1n ) = n− log P̃ML,w (x1n ) + |A|−1 2 P̃ML,w (x1n ), (|A| − 1)|τ| 2 log n. 25 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Critère BIC Sélection de modèle : trouver l’arbre qui minimise certains critères d’information. P̃ML,w (x1n ) =∏ a∈A Nn (w , a) Nn (w ) ∑ BICτ (x1n ) = − Nn (w ,a) log P̃ML,w (x1n ) + w ∈τ,Nn (w )≥1 BICEmpτ (x1n ) = ∑ w ∈τ,Nn (w )≥1 , P̃w (x1n ) = n− |A|−1 2 P̃ML,w (x1n ), (|A| − 1)|τ| 2 log n. (|A| − 1) n log Nn (w ) . − log P̃ML,w (x1 ) + 2 26 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Critère MDL (KT) P̃KT ,w (x1n ) = ∏a,Nn (w ,a)≥1 (Nn (w , a) − 12 )(Nn (w , a) − 32 )...( 12 ) (Nn (w ) − 1 + |A2 | )(Nn (w ) − 2 + |A2 | )...( |A2| ) KTτ (x1n ) = − ∑ log P̃KT ,w (x1n ) + D (n) log |A| w ∈τ,Nn (w )≥1 27 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Critère MDL (KT) P̃KT ,w (x1n ) = ∏a,Nn (w ,a)≥1 (Nn (w , a) − 12 )(Nn (w , a) − 32 )...( 12 ) (Nn (w ) − 1 + |A2 | )(Nn (w ) − 2 + |A2 | )...( |A2| ) KTτ (x1n ) = − ∑ log P̃KT ,w (x1n ) + D (n) log |A| w ∈τ,Nn (w )≥1 τ̂n = arg min{BICτ , KTτ } τ 28 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Algorithme BIC, MDL (révisé) Soit ∆w (x1n ) = ∏a,Nn (w ,a)≥1 Vaw (x1n ) . P̃w (x1n ) avec Vaw = ∏u ∈τaw P̃u (x1n ) 29 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Algorithme BIC, MDL (révisé) Soit ∆w (x1n ) = ∏a,Nn (w ,a)≥1 Vaw (x1n ) . P̃w (x1n ) avec Vaw = ∏u ∈τaw P̃u (x1n ) On construit l’arbre complet de profondeur h(τ) = c ln n, et on calcule pour tout w noeud de l’arbre, ∆w (x1n ). Si ∆w (x1n ) ≤ δ on coupe le sous-arbre issue de w. l’arbre obtenu minimise le critère BIC ou KT 30 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Algorithme BIC, MDL (révisé) Soit ∆w (x1n ) = ∏a,Nn (w ,a)≥1 Vaw (x1n ) . P̃w (x1n ) avec Vaw = ∏u ∈τaw P̃u (x1n ) On construit l’arbre complet de profondeur h(τ) = c ln n, et on calcule pour tout w noeud de l’arbre, ∆w (x1n ). Si ∆w (x1n ) ≤ δ on coupe le sous-arbre issue de w. l’arbre obtenu minimise le critère BIC ou KT Nous obtenons les inégalités exponentielles = montre la convergence p.s de cet algorithme. 31 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Paramètres initiaux Soit T = max τ(aw ). a∈A w ∈τ h(τ) = max{|w |; w ∈ τ}. ρ = min p(a|w ), a∈A w ∈τ pmin = inf p(w ) w ∈τ et β est la borne des coefficient de la chaine. Tous ces paramètres sont supposés > 0. 32 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Convergence p.s (X1 , . . . , Xn ) une suite de VLMC, de probabilités (τ, pτ ) avec τ est de hauteur h(τ) < ∞. Alors, Theorem P (τ̂Bic ,KT = τ) ≥ 1 − (K1 + K2 + K3 ) 33 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Sur-estimations τ̂ ≥ τ s’il existe un contexte w ∈ τ tq : uw ∈ τ̂. τ τ̂n 1 011 ∈ τ 1 0011 ∈ τ̂n 1 1 0 0 0 34 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Inégalité exponentielle, BIC (X1 , . . . , Xn ) une suite de VLMC, de probabilités (τ, pτ ) avec τ est de hauteur h(τ) < ∞. Alors, Proposition P (τ̂Bic > τ) ≤ 2h(τ) |A| + exp T .e ( 1/e −β 2 exp 2 npmin 8e ( − A|+1 2 2 β ) npmin (t − |np min 8e ) )! 35 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Inégalité exponentielle, BIC Empirique et KT Proposition P (τ̂BICEmp ,KT > τ) ≤ 2h(τ) 2|A| 1 T .e n 1/e + exp − β 2 " exp n 2 o npmin 8e − A|+1 2 2 (t − |np βo ) npmin min 1 18e n + exp − β 2 2 o npmin 8e 36 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Sous-estimations τ̂ ≤ τ s’il existe s ∈ τ̂ tq s est un suffixe d’un context w = us ∈ τ. τ τ̂n 1 011 ∈ τ 1 1 11 ∈ τ̂n 011 6∈ τ̂n 1 0 37 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Inégalité exponentielle, BIC Proposition P (τ̂BIC < τ) ≤ 2h(τ) 2|A| n T .e 1/e " exp n − A|+1 2 2 (t − |np βo ) npmin min 8e A|+1 2 2 ) npmin βo (t − |np min + exp − 8e n 2 o 1 npmin + exp − β 2 8e 38 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Inégalité exponentielle, BIC Empirique et KT Proposition P (τ̂BICEmp ,KT < τ) ≤ 2h(τ) 2|A| n T .e + exp − 1 n 1/e exp n − A|+1 2 2 ) npmin βo (t − |np min 8e A|+1 2 2 βo ) npmin (t − |np min + exp − β 2 " 8e 2 o npmin 8e 1 + exp 2 ( −β 2 npmin 8e )# 39 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Perspective Estimer le seuil δ en utilisant le critère validation croisée. Application des arbres de contextes pour prédire les séquences bilogique, tq ADN.. Comparer différents algorithmes pour estimer les arbres de contextes. 40 / 41 Introduction Algorithme de contexte Critères de sélection de modèle Résultats Références P. Bühlmann and A. Wyner (1999), Variable length Markov chains. Ann. Statist. 27, no. 2, 480–513. F. Ferrari and A. Wyner (2003), Estimation of general stationary processes by variable length Markov chains, Scand. J.e Statist. 30, no. 3, 459–480. J. Rissanen (1983) A universal data compression system. IEEE Trans. Inform. Theory 29, no. 5, 656–664. I. Csiszár and Z.Talata (2005), Context tree estimation for not necessarily finite memory processes via BIC and MDL, IEEE Transactions on Information Theory, Vol.52, No.3, pp. 1007–1016, Mar 2006. V.M Deschamps, A.Galves and B.Schmitt (2006). Exponential inequalities for VLMC empirical trees. preprint 41 / 41