Estimation des arbres de Contextes via les Critères BIC et MDL .

publicité
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Estimation des arbres de Contextes via les Critères
BIC et MDL .
Bezza Hafidi, Véronique Maume-Deschamps
Institut de Mathématiques de Bourgogne
22 Mars, 2007
1 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Plan
Introduction
2 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Plan
Introduction
Algorithme de contexte
3 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Plan
Introduction
Algorithme de contexte
Critères de sélection de Modèle
4 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Plan
Introduction
Algorithme de contexte
Critères de sélection de Modèle
Résultats
5 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Problématique
Soit A un alphabet fini, x1n = x1 , ...., xn une suite finie de mots dans A.
Comment construire un modèle qui pourra produire cette suite ?
6 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Problématique
Soit A un alphabet fini, x1n = x1 , ...., xn une suite finie de mots dans A.
Comment construire un modèle qui pourra produire cette suite ?
Chaine de Markov : chaine d’ordre k ⇒ une matrice |A|k × |A| et r k +1
paramètres à estimer. (r = |A|).
7 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Problématique
Soit A un alphabet fini, x1n = x1 , ...., xn une suite finie de mots dans A.
Comment construire un modèle qui pourra produire cette suite ?
Chaine de Markov : chaine d’ordre k ⇒ une matrice |A|k × |A| et r k +1
paramètres à estimer. (r = |A|).
VLMC = Chaine de Markov à longueur variable.
Idée : étant donné une chaine de Markov d’ordre k, la connaissance
de toute mémoire de longueur k n’est pas nécessaire ⇒ arbres de
contextes.
8 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Problématique
Soit A un alphabet fini, x1n = x1 , ...., xn une suite finie de mots dans A.
Comment construire un modèle qui pourra produire cette suite ?
Chaine de Markov : chaine d’ordre k ⇒ une matrice |A|k × |A| et r k +1
paramètres à estimer. (r = |A|).
VLMC = Chaine de Markov à longueur variable.
Idée : étant donné une chaine de Markov d’ordre k, la connaissance
de toute mémoire de longueur k n’est pas nécessaire ⇒ arbres de
contextes.
VLMC introduites par Rissanen en utilisant la thèorie de l’information.
Récemment, étudiées par Bülman and Wyner du point de vue
statistique.
9 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Contexte
Soit (Xn )n∈Z un processus stationnaire, prenant ses valeurs dans A,
Contexte :
−1
Un mot fini x−
k de longueur minimal tel que pour tout a ∈ A,
−1
−1
P(X0 = a | X−∞
= x−∞
) = P(X0 = a | X−−k1 = x−−k1 )
def
= P(X0 = a | X−k = x−k , . . . , X−1 = x−1 ) = p(a | x−−k1 ). (1)
10 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Contexte
Soit (Xn )n∈Z un processus stationnaire, prenant ses valeurs dans A,
Contexte :
−1
Un mot fini x−
k de longueur minimal tel que pour tout a ∈ A,
−1
−1
P(X0 = a | X−∞
= x−∞
) = P(X0 = a | X−−k1 = x−−k1 )
def
= P(X0 = a | X−k = x−k , . . . , X−1 = x−1 ) = p(a | x−−k1 ). (1)
−1
−1
S’il existe, pour tout vecteur du passé x−∞
, un indice k = k (x−∞
) tel
que (1) est vérifié, alors le processus (Xn )n∈Z est appelé VLMC.
11 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Contexte
Soit (Xn )n∈Z un processus stationnaire, prenant ses valeurs dans A,
Contexte :
−1
Un mot fini x−
k de longueur minimal tel que pour tout a ∈ A,
−1
−1
P(X0 = a | X−∞
= x−∞
) = P(X0 = a | X−−k1 = x−−k1 )
def
= P(X0 = a | X−k = x−k , . . . , X−1 = x−1 ) = p(a | x−−k1 ). (1)
−1
−1
S’il existe, pour tout vecteur du passé x−∞
, un indice k = k (x−∞
) tel
que (1) est vérifié, alors le processus (Xn )n∈Z est appelé VLMC.
τ est l’ensemble de tous les contextes de la VLMC, proprièté du suffixe
⇒ peut être représenté par un arbre.
12 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Arbre de contexte, VLMC
X−1 = 0
1
X−2 = 0
X−3 = 0
1
4
3
4
Soit A = {0, 1}
Les mots : 000, 100, 01, 11 sont des
contextes.
0
1
2
X−3 = 1
1
2
1
2
1
2
1
3
4
P(X0 = 1|X−3 = 1, X−2 = 0, X−1 = 0)
1
4
1
= p(1|100) = ,
2
p(0|100) = 21 , p(1|011) = p(1|11).
13 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Arbre de contexte, VLMC
X−1 = 0
1
X−2 = 0
X−3 = 0
1
4
3
4
Soit A = {0, 1}
Les mots : 000, 100, 01, 11 sont des
contextes.
0
1
2
X−3 = 1
1
2
1
2
1
2
1
3
4
P(X0 = 1|X−3 = 1, X−2 = 0, X−1 = 0)
1
4
1
= p(1|100) = ,
2
p(0|100) = 21 , p(1|011) = p(1|11).
Estimation de (τ, pτ ) ?
14 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Probabilités empirique
Soit (X1 , . . . , Xn ) un échantillon fini et w un caractère de longueur
inférieur à n.
Nn (w ) est le nombre d’occurences de w dans la séquence
(X1 , . . . , Xn ) :
n−|w |
Nn (w ) =
∑
m+|w |−1
1{Xm
= w }.
m =1
15 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Probabilités empirique
Soit (X1 , . . . , Xn ) un échantillon fini et w un caractère de longueur
inférieur à n.
Nn (w ) est le nombre d’occurences de w dans la séquence
(X1 , . . . , Xn ) :
n−|w |
Nn (w ) =
∑
m+|w |−1
1{Xm
= w }.
m =1
La probabilité de transition empirique p̂n (a|w ) est définie par :
p̂n (a|w ) =
Nn (wa)
Nn (w )
.
16 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Algorithme de contexte
Etant donnée deux mots u et w,
∆n (u , w ) =
∑ p̂n (a|wu) log
a∈A
p̂n (a|wu )
p̂n (a|w )
Nn (wu )
est la mesure de l’information fournie par u relativement à w.
Remarque : si w est contexte alors, pour tout u,
pτ (a|w ) = pτ (a|uw ).
17 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Algorithme de contexte II
Algorithme : considère tous
les caractères de longueur
ℓ, comme un arbre, élaguer
l’arbre comme le suivant :
calculer ∆n (a, w ), pour tout
noeud w et une lettre a. Si
∆n (a, w ) ≤ δ, couper tous les
sous-arbres.
w
∆n (a, w ) ≤ δ
∆n (a, w ) ≤ δ.
18 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Algorithme de contexte II
Algorithme : considère tous
les caractères de longueur
ℓ, comme un arbre, élaguer
l’arbre comme le suivant :
calculer ∆n (a, w ), pour tout
noeud w et une lettre a. Si
∆n (a, w ) ≤ δ, couper tous les
sous-arbres.
w
∆n (a, w ) ≤ δ.
19 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Algorithme de contexte II
Algorithme : considère tous
les caractères de longueur
ℓ, comme un arbre, élaguer
l’arbre comme le suivant :
calculer ∆n (a, w ), pour tout
noeud w et une lettre a. Si
∆n (a, w ) ≤ δ, couper tous les
sous-arbres.
∆n (a, w ) ≤ δ.
20 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Algorithme de contexte II
Algorithme : considère tous
les caractères de longueur
ℓ, comme un arbre, élaguer
l’arbre comme le suivant :
calculer ∆n (a, w ), pour tout
noeud w et une lettre a. Si
∆n (a, w ) ≤ δ, couper tous les
sous-arbres.
∆n (a, w ) ≤ δ.
21 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Algorithme de contexte II
Algorithme : considère tous
les caractères de longueur
ℓ, comme un arbre, élaguer
l’arbre comme le suivant :
calculer ∆n (a, w ), pour tout
noeud w et une lettre a. Si
∆n (a, w ) ≤ δ, couper tous les
sous-arbres.
∆n (a, w ) ≤ δ.
Libeler les feuilles par
les probabilités empiriques
p̂n (a|w ).
22 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Arbre empirique
Soit δ > 0, ℓ ∈ N,
Arbre empirique : τ̂n (ℓ) = l’ensemble maximum de tous les
−1
caractères finis x−
k , 1 ≤ k ≤ ℓ tq pour tout j ≤ k
∆n (x−j , x−−j1+1 ) > δ.
Comment choisir δ, ℓ, tq τ̂n approxime τ ? Dans quel sens (τ̂n (ℓ), p̂n )
approxime (τ, pτ ) ?
23 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Critère BIC
Sélection de modèle : trouver l’arbre qui minimise certains critères
d’information.
P̃ML,w (x1n )
=∏
a∈A
Nn (w , a)
Nn (w )
Nn (w ,a)
, P̃w (x1n ) = n−
|A|−1
2
P̃ML,w (x1n ),
24 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Critère BIC
Sélection de modèle : trouver l’arbre qui minimise certains critères
d’information.
P̃ML,w (x1n )
=∏
a∈A
BICτ (x1n ) = −
Nn (w , a)
Nn (w )
∑
Nn (w ,a)
w ∈τ,Nn (w )≥1
, P̃w (x1n ) = n−
log P̃ML,w (x1n ) +
|A|−1
2
P̃ML,w (x1n ),
(|A| − 1)|τ|
2
log n.
25 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Critère BIC
Sélection de modèle : trouver l’arbre qui minimise certains critères
d’information.
P̃ML,w (x1n )
=∏
a∈A
Nn (w , a)
Nn (w )
∑
BICτ (x1n ) = −
Nn (w ,a)
log P̃ML,w (x1n ) +
w ∈τ,Nn (w )≥1
BICEmpτ (x1n )
=
∑
w ∈τ,Nn (w )≥1
, P̃w (x1n ) = n−
|A|−1
2
P̃ML,w (x1n ),
(|A| − 1)|τ|
2
log n.
(|A| − 1)
n
log Nn (w ) .
− log P̃ML,w (x1 ) +
2
26 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Critère MDL (KT)
P̃KT ,w (x1n )
=
∏a,Nn (w ,a)≥1 (Nn (w , a) − 12 )(Nn (w , a) − 32 )...( 12 )
(Nn (w ) − 1 + |A2 | )(Nn (w ) − 2 + |A2 | )...( |A2| )
KTτ (x1n ) = −
∑
log P̃KT ,w (x1n ) + D (n) log |A|
w ∈τ,Nn (w )≥1
27 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Critère MDL (KT)
P̃KT ,w (x1n )
=
∏a,Nn (w ,a)≥1 (Nn (w , a) − 12 )(Nn (w , a) − 32 )...( 12 )
(Nn (w ) − 1 + |A2 | )(Nn (w ) − 2 + |A2 | )...( |A2| )
KTτ (x1n ) = −
∑
log P̃KT ,w (x1n ) + D (n) log |A|
w ∈τ,Nn (w )≥1
τ̂n = arg min{BICτ , KTτ }
τ
28 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Algorithme BIC, MDL (révisé)
Soit
∆w (x1n ) =
∏a,Nn (w ,a)≥1 Vaw (x1n )
.
P̃w (x1n )
avec Vaw = ∏u ∈τaw P̃u (x1n )
29 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Algorithme BIC, MDL (révisé)
Soit
∆w (x1n ) =
∏a,Nn (w ,a)≥1 Vaw (x1n )
.
P̃w (x1n )
avec Vaw = ∏u ∈τaw P̃u (x1n )
On construit l’arbre complet de profondeur h(τ) = c ln n, et on calcule
pour tout w noeud de l’arbre, ∆w (x1n ).
Si ∆w (x1n ) ≤ δ on coupe le sous-arbre issue de w. l’arbre obtenu
minimise le critère BIC ou KT
30 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Algorithme BIC, MDL (révisé)
Soit
∆w (x1n ) =
∏a,Nn (w ,a)≥1 Vaw (x1n )
.
P̃w (x1n )
avec Vaw = ∏u ∈τaw P̃u (x1n )
On construit l’arbre complet de profondeur h(τ) = c ln n, et on calcule
pour tout w noeud de l’arbre, ∆w (x1n ).
Si ∆w (x1n ) ≤ δ on coupe le sous-arbre issue de w. l’arbre obtenu
minimise le critère BIC ou KT
Nous obtenons les inégalités exponentielles = montre la convergence
p.s de cet algorithme.
31 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Paramètres initiaux
Soit
T = max τ(aw ).
a∈A
w ∈τ
h(τ) = max{|w |; w ∈ τ}.
ρ = min p(a|w ),
a∈A
w ∈τ
pmin = inf p(w )
w ∈τ
et β est la borne des coefficient de la chaine.
Tous ces paramètres sont supposés > 0.
32 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Convergence p.s
(X1 , . . . , Xn ) une suite de VLMC, de probabilités (τ, pτ ) avec τ est de
hauteur h(τ) < ∞. Alors,
Theorem
P (τ̂Bic ,KT = τ)
≥ 1 − (K1 + K2 + K3 )
33 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Sur-estimations
τ̂ ≥ τ s’il existe un contexte w ∈ τ tq : uw ∈ τ̂.
τ
τ̂n
1
011 ∈ τ
1
0011 ∈ τ̂n
1
1
0
0
0
34 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Inégalité exponentielle, BIC
(X1 , . . . , Xn ) une suite de VLMC, de probabilités (τ, pτ ) avec τ est de
hauteur h(τ) < ∞. Alors,
Proposition
P (τ̂Bic > τ) ≤
2h(τ)
|A|
+ exp
T .e
(
1/e
−β
2 exp
2
npmin
8e
(
−
A|+1 2
2
β
) npmin
(t − |np
min
8e
)
)!
35 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Inégalité exponentielle, BIC Empirique et KT
Proposition
P (τ̂BICEmp ,KT > τ) ≤
2h(τ)
2|A|
1
T .e
n
1/e
+ exp − β
2
"
exp
n
2 o
npmin
8e
−
A|+1 2
2
(t − |np
βo
) npmin
min
1
18e
n
+ exp − β
2
2 o
npmin
8e
36 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Sous-estimations
τ̂ ≤ τ s’il existe s ∈ τ̂ tq s est un suffixe d’un context w = us ∈ τ.
τ
τ̂n
1
011 ∈ τ
1
1
11 ∈ τ̂n
011 6∈ τ̂n
1
0
37 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Inégalité exponentielle, BIC
Proposition
P (τ̂BIC < τ) ≤
2h(τ)
2|A|
n
T .e
1/e
"
exp
n
−
A|+1 2
2
(t − |np
βo
) npmin
min
8e
A|+1 2
2
) npmin
βo
(t − |np
min
+ exp −
8e
n
2 o
1
npmin
+ exp − β
2
8e
38 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Inégalité exponentielle, BIC Empirique et KT
Proposition
P (τ̂BICEmp ,KT < τ) ≤
2h(τ)
2|A|
n
T .e
+ exp −
1
n
1/e
exp
n
−
A|+1 2
2
) npmin
βo
(t − |np
min
8e
A|+1 2
2
βo
) npmin
(t − |np
min
+ exp − β
2
"
8e
2 o
npmin
8e
1
+ exp
2
(
−β
2
npmin
8e
)#
39 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Perspective
Estimer le seuil δ en utilisant le critère validation croisée.
Application des arbres de contextes pour prédire les séquences
bilogique, tq ADN..
Comparer différents algorithmes pour estimer les arbres de
contextes.
40 / 41
Introduction
Algorithme de contexte
Critères de sélection de modèle
Résultats
Références
P. Bühlmann and A. Wyner (1999), Variable length Markov
chains. Ann. Statist. 27, no. 2, 480–513.
F. Ferrari and A. Wyner (2003), Estimation of general stationary
processes by variable length Markov chains, Scand. J.e Statist.
30, no. 3, 459–480.
J. Rissanen (1983) A universal data compression system. IEEE
Trans. Inform. Theory 29, no. 5, 656–664.
I. Csiszár and Z.Talata (2005), Context tree estimation for not
necessarily finite memory processes via BIC and MDL, IEEE
Transactions on Information Theory, Vol.52, No.3, pp. 1007–1016,
Mar 2006.
V.M Deschamps, A.Galves and B.Schmitt (2006). Exponential
inequalities for VLMC empirical trees. preprint
41 / 41
Téléchargement