Estimation des densités de probabilité par l`algorithme plug-in

publicité
Estimation des densités de probabilité
par l’algorithme plug-in
M. TROUDI (ENSTBr/ ReGIM-ENIS)
1
Estimation des densités de probabilité :
État de l’art
Méthodes paramétriques :
Méthodes basées sur le maximum de vraisemblance
Méthodes de Pearson basées sur les moments
centrés réduits d'ordre 3 ou 4
Méthodes non paramétriques :
Méthode de l’Histogramme
Méthode du noyau
Méthode du noyau difféomorphisme
Méthode des fonctions orthogonales
M. TROUDI (ENSTBr/ ReGIM-ENIS)
2
Estimateur à noyau
(Rozenblatt 1956 – Parzen 1962)
^
fn x
1
nhn
n
i 1
x Xi
K
hn
Convergence en moyenne quadratique
hn
0 et nhn
quand n
M. TROUDI (ENSTBr/ ReGIM-ENIS)
3
Etude asymptotique relative au pas hn
2
^
E fn x
avec
f x
M (K )
( f ' ' ( x)) 2 hn4
4
f x M (K )
nhn
K 2 (u )du
Convergence en moyenne quadratique intégrée
2
^
D ( f n, f )
avec
2
^
J( f )
E
fn x
f x
dx
M (K )
nhn
J ( f )hn4
4
(hn )
( f ' ' ( x)) 2 dx
M. TROUDI (ENSTBr/ ReGIM-ENIS)
4
Minimisation de (hn)
h
*
4
n
5
n
1
5
J(f )
1
5
M (K )
4
5
EQMI minimal
2
^
D ( f n, f )
5
n
4
4
5J(
f)
M. TROUDI (ENSTBr/ ReGIM-ENIS)
1
5
M (K )
4
5
5
J(f)
Le pas optimal est fonction de J(f)
J( f )
( f ' ' ( x)) 2 dx
f étant la densité de probabilité à estimer (inconnue)
M. TROUDI (ENSTBr/ ReGIM-ENIS)
6
Choix du pas optimal : Etat de l’art
Least square cross-validation, (Bowman 1984)
Rule-of-thumb (ROT), (Hardle 1991)
Unbiased cross-validation (UCV), (Scott and
terrel 1987)
Biased cross-validation, (Scott 1992)
Plug-in method, (Jones and Wand 1994)
M. TROUDI (ENSTBr/ ReGIM-ENIS)
7
Description de la méthode plug-in
Principe :
Déterminer M(K).
Fixer aléatoirement J(0) f puis hn(0)
Estimer f à partir de hn(0)
Ré-estimer J(k) f et par conséquent hn(k) à chaque
itération k à partir de la densité de probabilité f estimée
lors de l’itération (k-1).
M. TROUDI (ENSTBr/ ReGIM-ENIS)
8
Algorithme plug-in
Calcul de J(k)(f)
k)
Estimation
fˆ (de
puis de hn(k)
fˆ avec hn(k)
Début
Calcul de M(K)
Choix arbitraire
fˆ (0)
de J(f).
n
1
3
k=k+1
non
Estimation de fˆ
k=0
fin
M. TROUDI (ENSTBr/ ReGIM-ENIS)
|hn(k)-hn(k-1) | = e
oui
9
Complexité algorithmique
Estimation de f par la méthode du noyau : O(2np)
Estimation de J(f) : O(2p)
Nombre d’itérations : k
Complexité algorithmique = O(2knp)
M. TROUDI (ENSTBr/ ReGIM-ENIS)
10
Comparaison de la méthode plug-in avec
la méthode least-square-cross- validation
Cas d’un mélange gaussien : Densité trimodale résultant
d’un mélange gaussien de la forme suivante:
f ( x)
1
f
1, 1
( x)
2
f
2, 2
( x)
3
f
3, 3
( x)
avec 1 = -1, 2 = 0, 3 = 2
1 = 0.5, 2 = 0.3, 3 = 0.2.
1 = 0.35, 2 = 0.24 et 3 = 0.41
M. TROUDI (ENSTBr/ ReGIM-ENIS)
11
Résultats
Estimation de f par deux méthodes différentes
pour le choix du pas optimal
Évolution de l’EQMI en fonction du nombre
d’itérations
M. TROUDI (ENSTBr/ ReGIM-ENIS)
12
Evolution du EQMI en fonction de la
taille de l’échantillon
-3
2
x 10
0.015
1.8
0.0145
1.6
0.014
1.4
0.0135
EQMI
EQMI
1.2
1
0.013
0.8
0.6
0.0125
0.4
0.012
0.2
0
0
500
1000
1500
2000
2500
taille échantillon
3000
Méthode plug-in
3500
4000
0.0115
0
500
1000
1500
2000
2500
taille échantillon
3000
3500
4000
Méthode least square cross
validation
M. TROUDI (ENSTBr/ ReGIM-ENIS)
13
Evolution du EQMI en fonction de la
taille de l’échantillon
0.015
0.01
Plug-in
EQMI
Least sqaure cross validation
0.005
0
0
500
1000
1500
2000
2500
taille échantillon
3000
M. TROUDI (ENSTBr/ ReGIM-ENIS)
3500
4000
14
Approximation analytique de J(f) dans
le cas du noyau optimal
1
f̂ " ( x )
Cas du noyau optimal
nhn3
n
K x
Dérivée seconde du noyau optimal
K" x
5
x2
1
if x
5
4 5
5
0
5
3
si
indéfini si
3 5
si
50
M. TROUDI (ENSTBr/ ReGIM-ENIS)
xi
hn
i 1
0 if x
Noyau optimal
x
K"
x
x
5
x
5
15
Approximation analytique de J(f) dans
le cas du noyau optimal
Soit la fonction (x) constante par
intervalles et formant une partition sur la
droite réelle :
n
(x)
K"
i
x Xi
hn
2
2
K"
i An ( x )
x Xi
hn
avec
An ( x )
1
J f
nhn2
J f
n
i 1
9
1
500 n 2 hn6
x xi
K"
hn
0 i
n;
x Xi
hN
5
2
dx
( x )dx
M. TROUDI (ENSTBr/ ReGIM-ENIS)
16
Description de la méthode plug-in
analytique
Principe :
Déterminer M(K).
Fixer aléatoirement J(0) f puis hn(0)
Ré-estimer J(k) f et par conséquent hn(k) à chaque
itération k directement à partir de l’échantillon.
M. TROUDI (ENSTBr/ ReGIM-ENIS)
17
Algorithme du pas optimal
Calcul de J(k)(f)
à partir de l’échantillon
puis de hn(k)
Début
Calcul de M(K)
Choix arbitraire
ˆ ( 0)
de J(f). f
Détermination1 de
n 3
hn .
k=0
k=k+1
non
|hn(k)-hn(k-1) | = e
oui
fin
Estimation de f
M. TROUDI (ENSTBr/ ReGIM-ENIS)
18
Complexité algorithmique
Estimation de f par la méthode du noyau : O(2np)
Estimation de J(f) : O(2p)
Nombre d’itérations : k
Complexité algorithmique = O(2p(k+n)) O(2np)
M. TROUDI (ENSTBr/ ReGIM-ENIS)
19
Comparaison de la méthode plug-in avec
la méthode plug-in analytique
Cas d’une distribution mélange loi gaussienne et loi
uniforme :
Densité de la forme suivante:
f ( x)
1f ,
( x)
2 f a ,b ( x )
avec = 0.3, = 0.2, 1=0.75
a = -0.3, b = 0.2, 2=0.25
M. TROUDI (ENSTBr/ ReGIM-ENIS)
20
Résultats
f théorique
f théorique
f estimée
f estimée
Estimation de f par la méthode plug-in
Estimation de f par la méthode plug-in analytique
M. TROUDI (ENSTBr/ ReGIM-ENIS)
21
Comparaison de la méthode plug-in avec
la méthode plug-in analytique
Algorithme
plug-in
Algorithme
plug-in
analytique
EQMI
Variance
0.0223
2,6130.10-5
0.0223
2.6432.10-5
M. TROUDI (ENSTBr/ ReGIM-ENIS)
22
Application 1 :
Evaluation de la neutralité génétique
des populations
M. TROUDI (ENSTBr/ ReGIM-ENIS)
23
Contexte et problématique
Génétique des populations
Modèle démographique de
Wright-Fisher (Neutralité)
Mesure de la neutralité
Génération de populations neutres
et de distributions des statistiques
d’évaluation de la neutralité
Problème d’une estimation
correcte des densités de
probabilités.
M. TROUDI (ENSTBr/ ReGIM-ENIS)
24
Notion de polymorphisme moléculaire
Gène ou locus
Mesure de la neutralité
Mutations
Différentes versions
=
Allèles
M. TROUDI (ENSTBr/ ReGIM-ENIS)
Fréquences alléliques
25
Notion de neutralité
Modèle démographique de Wright-Fisher :
Effectif stable
Population non structurée (croisements aléatoires)
Générations successives et discrètes
Populations génétiquement neutres en absence
de sélection, migrations ou autres facteurs
portant atteinte à la neutralité
M. TROUDI (ENSTBr/ ReGIM-ENIS)
26
P[D<Dp] 0,2
Décision litigieuse
Estimation d’une valeur moyenne de P[D<Dp]
M. TROUDI (ENSTBr/ ReGIM-ENIS)
27
Cas de la population de Sened
Caractéristiques de l’échantillon : N = 55;
= 7.60471 ; Dp = -1.71764
Population
Sened
Estimation des d.p. de D simulé par
les deux méthodes
Valeur
Valeur
moyenne
moyenne
de P[D<Dp] de P[D<Dp]
avec
avec
plug-in
plug-in
analytique
0.0213
0.0214
Résultats de neutralité obtenus par les
2 méthodes
M. TROUDI (ENSTBr/ ReGIM-ENIS)
28
Application 2 :
Estimation du taux d’erreur en
communication numérique
M. TROUDI (ENSTBr/ ReGIM-ENIS)
29
Méthode classique d’estimation du
taux d’erreur
Génération aléatoire d’échantillons (bk)
Estimation des bk recus
Comptage des erreurs
100 erreurs minimum pour un intervalle de
confiance correct
Problématique : Nombre d’échantillon très élevé
lorsque la probabilité d’erreur (Pe ) est faible
M. TROUDI (ENSTBr/ ReGIM-ENIS)
30
Autre méthode d’estimation du taux
d’erreur
Génération fixe d’échantillons (bk= +1)
Estimation de la densité de probabilité des
signaux zk reçus
Estimation de la probabilité d’erreur :
0
Pe
P zk
0
f z k x dx
M. TROUDI (ENSTBr/ ReGIM-ENIS)
31
Comparaison des deux méthodes
Type de récepteur : MMSE
Nombre d’utilisateurs : 2
Amplitude : 1
Codes : aléatoires
Nombre d’échantillons générés : 100
Nombre d’erreurs pour RSB=6 : 11
Comparaison de la méthode classique
et de la méthode par estimation de la d.p.
M. TROUDI (ENSTBr/ ReGIM-ENIS)
32
Limites de la méthode
RSB élevée
0
f z k x dx
0
M. TROUDI (ENSTBr/ ReGIM-ENIS)
33
Solution proposée
Estimation de la d.p par le noyau gaussien
Pe
1
2
1
2N
N
Xi
erf
2h N
i 1
avec
erf
2
x
e
t2
dt
0
M. TROUDI (ENSTBr/ ReGIM-ENIS)
34
Conclusion et perspectives
Conclusion
Une estimation fiable du pas hn dans la méthode du noyau
Meilleure estimation des densités de probabilité
L’application directe de cette méthode pour l’estimation de
la probabilité d’erreur en communication numérique est
prometteuse
Perspectives
Extension de l’algorithme du noyau à pas optimal à la
méthode du noyau difféomorphisme dans le cas des
densités à support borné.
Etude du cas multivarié.
M. TROUDI (ENSTBr/ ReGIM-ENIS)
35
Ce document à été crée avec Win2pdf disponible à http://www.win2pdf.com/fr
La version non enregistrée de Win2pdf est uniquement pour évaluation ou à usage non commercial.
Téléchargement