GEI 756 Processus stochastiques et traitement statistique de signaux aléatoires Bloc 2 : Notions de base Semaine 5: types de processus stochastiques partie II Denis Gingras Janvier 2013 UNIVERSITÉ DE 1 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Plan du cours Semaine 5: types de processus stochastiques Partie II Indépendance en probabilité conditionnelle Processus de renouvellement Probabilité Chaîne de Markov Modèle de Markov caché Algorithme « Forward », « Backward » et de Viterbi Processus de comptage Processus de Poisson simple et composé Bruit de grenaille UNIVERSITÉ DE 2 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 1 Familles de processus Sans mémoire Avec mémoire Semaine 5 1) La marche aléatoire est une chaîne de Markov avec un nombre infini d’état. 2) Tout processus à moyenne nulle et à accroissements indépendants (ex.Wiener discret) est une martingale. 3 8-févr.-13 Sans mémoire Avec mémoire (cas particuliers) Semaine 4 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 UNIVERSITÉ DE SHERBROOKE Quatre types de processus stochastiques DTDV, Discret Time / Discret Values, processus à temps discret et à valeurs discrètes. DTCV, Discret Time / Continuous Values, processus à temps discret et à valeurs continues. CTDV, Continuous Time / Discret Values, processus à temps continu et à valeurs discrètes. CTCV, Continuous Time / Continuous Values, processus à temps continu et à valeurs continues. NB: Un processus ponctuel n’est pas nécessairement discret, ni dans le temps, ni dans ses valeurs. UNIVERSITÉ DE 4 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 2 Quatre types de processus stochastiques Processus de Bernouilli Processus de Poisson (temps d’arrivée) Processus de Poisson (nombre d’occurrences) Processus gaussien UNIVERSITÉ DE 5 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Notion d’indépendance conditionnelle Soient x,y,z trois séquences aléatoires discrètes. On dit que x est indépendante de y si et seulement si, i, j : P( xi , y j ) P( xi ) P( y j ) On dit que x est indépendant de y conditionnellement à z si et seulement si, i, j , k : P ( xi , y j zk ) P ( xi zk ) P ( y j zk ) La notion d’indépendance conditionnelle (d’ensembles) de v.a. est une notion fondamentale dans le domaine des processus aléatoires pour la construction de modèles à partir d’hypothèses physiques ou pour la mise au point d’algorithmes efficaces d’inférence. UNIVERSITÉ DE 6 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 3 Représentation graphique de probabilités conditionnelles En cas d’absence d’indépendance conditionnelle, de plusieurs « états » (évènements) nous avons souvent une dépendance en « chaîne » de la forme, P ( A, B, C ,...) P ( A) P( B A) P(C B ).... Graphiquement une telle factorisation des probabilité conditionnelles des états A, B et C … est représentée comme suit, P (C B ) P ( B A) A B C P A P B P C … UNIVERSITÉ DE 7 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Filtration Soit xt un processus stochastique Associé au processus nous avons l’espace échantillonnal Chaque point (un résultat) dans correspond à une trajectoire (i.e., une seule réalisation du processus). Aussi associé au processus, est l’ensemble des évènements, F, une collection exhaustive des sous-ensembles de (constituant un sigma-algèbre), auxquels on associe une masse de probabilité à chacun des sous-ensembles. Pour les processus temporel, à chaque temps t, on définit Ft (Ft F), lequel est un sous-ensemble d’évènements de F au temps t. A Ft ssi A=f(x1,…,xt). Ainsi, alors que x1,…xt prennent des valeurs connues au temps t, A prends aussi une valeur connue au temps t. La famille de sous-ensembles imbriqués (nested), (Ft), t 0 est connue sous le nom de « filtration naturelle » associée au processus stochastique xt. La filtration décrit l’information gagnée à partir des observations du processus jusqu’au temps t. UNIVERSITÉ DE 8 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 4 La propriété markovienne Un processus qui ne dépend aucunement de ses réalisations antérieures est un processus sans mémoire. La propriété markovienne est une propriété de mémoire finie dans le temps. Lorsque l’évolution future d’un processus aléatoire ne dépend pas de son évolution passée, mais seulement de sa dernière réalisation (mémoire finie) et de son état présent, le processus possède la propriété markovienne. Un processus stochastique qui a la propriété markovienne est appelé un processus de Markov. Si l’espace d’états (l’espace des valeurs que peut prendre le processus) et le temps sont discrets, on parle alors de chaînes de Markov. Lorsque l’espace d’état est discret mais que le temps est continu, on parle de processus à sauts. UNIVERSITÉ DE 9 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE La propriété markovienne Définition: Soit un processus stochastique continu x(t), t . Alors x(t) est dit avoir la propriété markovienne si t, la PDF f x [ x t | x t1 ,x t2 ,...x tn ] f x [ x t | x t1 ], tn ...t2 t1 t Pour le cas à temps discret, nous avons, f x [ x n | x n 1 ,x n - 2 ,...x n ...] f x [ x n | x n 1], n La distribution conjointe du processus x(n) à partir de 0, f x [ x 0 ,x 1 ,...x n ] f x [ x 0 ] f x [ x 1 | x 0 ] f x [ x 2 | x 1 ,x 0 ] f x [ x 3 | x 2 ,x 1 ,x 0 ]... UNIVERSITÉ DE 10 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 5 La propriété markovienne Devient alors, f x [ x 0 ,x 1 ,...x n ] f x [ x 0 ] f x [ x 1 | x 0 ] f x [ x 2 | x 1] f x [ x 3 | x 2 ]... f x [ x n | x n 1] n = f x [ x 0 ] f x [ x i | x i 1] i 1 NB: Un processus markovien demeure markovien lorsque le vecteur temps est renversé. f x [ x n | x n 1 ,x n+ 2 ,...x n ... ] f x[ x n | x n 1 ], n UNIVERSITÉ DE 11 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus de Markov Un processus avec des accroissements indépendants a la propriété markovienne (ex. Marche aléatoire, Wiener discret etc) Une marche aléatoire, qui est définie par x ( n) n (k ), k est un processus markovien car on sait que x(n) x(n 1) (n), et que (n) est Bernouilli, donc sans mémoire. UNIVERSITÉ DE 12 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 6 Processus de Markov continu Un processus de Markov peut donc avoir des valeurs continues. Exemple: soit, x(n) x(n 1) w(n), Où w(n) est un processus iid à moyenne nulle gaussien avec une PDF,. 2 f w ( w) w exp 2 2 2 o 1 2 o La densité conditionnelle de x(n) étant donné x(n-1) est également gaussienne et est donné par, UNIVERSITÉ DE 13 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus de Markov continu Exemple (suite) x(n) x(n 1) 2 f x ( n ) x ( n1) ( x(n) x(n 1)) exp 2 2 2 o2 o 1 En fait, si w(n) est indépendant avec n’importe quelle PDF, la densité conditionnelle de x(n) étant donné x(n-1) est fw(x(n)-ρx(n-1)). Donc x(n-1) détermine complètement la distribution de x(n). C’est donc un processus markovien. UNIVERSITÉ DE 14 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 7 La chaîne de Markov Lorsque x(n) prend seulement des valeurs discrètes dénombrables (états) et que le temps est discret, le processus est appelé “chaîne de Markov”. Ces valeurs discrètes du processus correspondent à Q “états” S1, S2,…SQ , à l’instar des systèmes. La probabilité de transition de l’état Si à l’état Sj est définie par, p j i (n) Pr x(n) S j x(n 1) Si Pour un nombre fini d’états la matrice des probabilités de transition (ou matrice de transition) est donnée par, (n) les éléments p j i (n) , avec j colonne, i ligne UNIVERSITÉ DE 15 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE La chaîne de Markov État 3 État 2 État 1 Commutateurs « S=Switch » UNIVERSITÉ DE 16 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 8 La chaîne de Markov Les chaînes de Markov sont habituellement représentées par des graphes de transition – les états sont reliés par des flèches indiquant la direction de la transition. Souvent les états sont représentés par des ronds ou des points. La probabilité de transition est indiquée à côté de la flèche correspondante. La somme des probabilités de transition qui sortent d’un état est égale à 1. 6 3 1 2/3 1 2 4 1 1/3 1 1 3/5 0 5 1 2/5 UNIVERSITÉ DE SHERBROOKE La chaîne de Markov p ji j (n) p ji 1 j Une matrice de transition est une matrice stochastique (voir semaine 2), i.e. la somme sur une ligne =1. Attention: dans les graphes, c’est la somme des probabilités de transition qui sortent d’un état qui égale à 1. p10= 3/4 Ex. un graphe de transition 0 p00= 1/4 et sa matrice de transition p00 p01 p 02 1 p01= 1/4 p10 p11 p12 p22= 3/4 p21= 3/4 p20 1 4 p21 1 4 p22 0 2 p12= 1/4 3 4 0 1 4 0 4 3 4 3 UNIVERSITÉ DE 18 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 9 Différentes topologies des machines à états finis Que pouvez-vous dire sur ces modèles markoviens ? UNIVERSITÉ DE 19 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Différentes topologies des machines à états finis UNIVERSITÉ DE 20 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 10 La chaîne de Markov La distribution d’une chaîne de Markov est totalement spécifiée à l’aide des informations suivantes: La distribution de probabilité initiale des états Pr[x0=S0] Les probabilités de transition d’un état à l’autre p (jin ,n1) Ainsi la probabilité de n’importe quel parcours, définie par, Pr x0 = Si0 ,x1 = Si1 ,…,xn = Sin , Peut se mettre sous la forme, Pr[ x0 = Si0 ,x1 = Si1 ,…,xn = Sin ] Pr[ x0 Si0 ]. pi(0,1) pi(1,2) ... pi(nnin1,1 n ) 1i0 2i1 D’où le terme « chaîne » UNIVERSITÉ DE 21 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Chaîne de Markov homogène Une chaîne de Markov est dite homogène si pour tout les temps n et pour tout les états i et j p ji (n, n 1) p (jin,n1) p (0,1) ji i.e., les probabilités de transition sont indépendantes du temps. Ainsi, savoir dans quel état se trouve le processus identifie de façon unique les probabilités de transition. n m ) p (jim, n ) p (0, ji p (jin m ) Pour le cas homogène, on écrit souvent simplement p ji pour p (jinm. 1) UNIVERSITÉ DE 22 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 11 Chaîne de Markov homogène Une chaîne de Markov est donc homogène lorsque les probabilités de transitions sont indépendantes de n. La probabilité du premier ordre des états d’un processus homogène peut toutefois être fonction de n. psi (n) Pr x(n) Si Nous supposons pour la suite que le processus de Markov est homogène. Notez que la probabilité de k transitions est définie par, p (jink ) p j i (n k ) Pr x(n) S j x(n k ) Si . UNIVERSITÉ DE 23 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE La chaîne de Markov Soit le vecteur ps (n) p1 (n), p2 (n),..., pQ (n) T de la distribution des Q états au temps n. Ce vecteur vérifie les conditions suivantes. ps ( n)T ps (n 1)T En factorisant ps ( n)T ps ( n k )T n k k l k l , où l et k l sont respectivement les matrices des probabilités de l et de k l transitions. On en déduit , ( k ) Q ( l ) ( k l ) p j i p j q pq i , 0 l k q 1 24 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 UNIVERSITÉ DE SHERBROOKE 12 Les équations Chapman-Kolmogorov Le dernier ensemble d’équations est la version discrète avec un temps initial m=0 des équations de ChapmanKolmogorov. De façon générale, les probabilités de transition d’une chaîne de Markov obéissent aux équations de Chapman-Kolmogorov , i.e., pour tout temps m < k Q p ( k ,m ) ji p (jql ,m ) pqi( k ,l ) i , j Q ; m l k q 1 Il s’agit d’une conséquence directe du théorème des probabilités totales (voir le cours semaine 2) et de la factorisation. UNIVERSITÉ DE 25 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Chaîne de Markov homogène Pour le cas homogène, les équations de ChapmanKolmogorov se simplifient à, p ( k m ) ji Q p (jql m ) pqi( k l ) i , j Q; m l k p (jik m) q 1 est appelé la probabilité de la (k-m) transition. UNIVERSITÉ DE 26 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 13 Les équations Chapman-Kolmogorov Conséquence des équations C-K Soit x(n) une chaîne de Markov homogène. Nous avons défini une matrice d’une transition Π avec (Π)ji= pji , une matrice Q x Q où Q est la cardinalité de l’espace des états S. Alors, Pr[ xmk S j | xm Si ] p (jik ) ( k ) ji La probabilité de la kieme transition passant de l’état i à l’état k j est simplement l’élément ji dans la matrice ( ) ji i.e. c’est équivalent à la matrice d’une transition ( ) ji pris à la puissance k. Cette notation algébrique est couramment utilisé pour l’étude des processus markovien. UNIVERSITÉ DE 27 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Chaîne de Markov homogène Propriétés de la matrice des probabilités de transition Nous avons p qS Et, (k ) jq 1, j , k 1 0 p (jqk ) 1, 0 j , q Q, q S Rappel: Les matrices qui ont ces deux propriétés sont appelés des matrices stochastiques. UNIVERSITÉ DE 28 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 14 Chaîne de Markov Souvent une chaîne de Markov converge vers un comportement limite de sa matrice des probabilités de transition pour un grand nombre d’observations. Ainsi, pour k très grand, les probabilités de la kième transition deviennent indépendantes des probabilités de transition initiales. Reprenons la forme vectorielle des probabilités des Q états du T processus, ps ( n) ps ( n0 k ) p1 ( n), p2 (n),..., pQ ( n) Soit la distribution initiale des probabilités des états à l’instant initial n0 est défini par ps (n0 ). Alors, puisque ps (n)T ps ( n0 )T ( n n0 ) ps (n0 )T ( k ) lim ps ( n)T lim ps ( n0 )T ( n n0 ) lim ps ( n0 )T (k ) ps (n0 )T limite n n k UNIVERSITÉ DE 29 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Chaîne de Markov Soit le processus markovien à deux états, Important: Les probabilités de transition limites n’existent pas pour tous les processus markoviens. UNIVERSITÉ DE 30 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 15 Chaîne de Markov Exemples de processus markoviens qui n’ont pas de probabilités de transition limites. Expliquez pourquoi ? 2 états récurrents (oscillateurs) États périodiques État transitoire UNIVERSITÉ DE 31 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Chaîne de Markov - stationnarité Une chaîne de markov homogène x(n) est stationnaire si les probabilités de ses états deviennent indépendant du temps, i.e., ps (n) ps (n0 k ) p s , k 0 Alors, la distribution stationnaire des probabilités des états ps est la solution de psT psT ou psT I 0 En utilisant la contrainte p si 1 i Theorème utile: Une chaîne de Markov ayant un nombre fini d’états a au moins une distribution des probabilités des états qui est stationnaire. UNIVERSITÉ DE 32 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 16 Chaîne de Markov - stationnarité Considérons une chaîne de Markov homogène à deux états ayant une matrice de transition donnée par, 1 2 1 3 1 2 2 3 On veut trouver sa distribution stationnaire des probabilités des deux états en résolvant l’équation caractéristique, On trouve, psT I 0 ps 2 / 5,3 / 5 , car p s (1) p s (2) 1 T UNIVERSITÉ DE 33 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE La chaîne de Markov Autre exemple: Considérons la chaîne de Markov homogène à deux états ayant la matrice de transition suivante: S={0,1}, 0 1 1 0 On peut résoudre analytiquement pour trouver la distribution stationnaire unique ps ½,½ T Cependant le processus ne pourra jamais atteindre cette distribution à moins qu’il ne démarre avec elle (cas trivial). Expliquez à partir du graphe de la chaîne. UNIVERSITÉ DE 34 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 17 Chaîne de Markov - stationnarité Autre exemple: Considérons une séquence binaire de +1 et de -1 modélisée par une chaîne de Markov à deux états ayant une matrice de transition donnée par, 0.6 0.4 0.1 0.9 On veut trouver la distribution stationnaire des probabilités des deux T états en résolvant, psT I 0 on trouve, ps 0.2,0.8 Les probabilités d’obtenir une séquence de dix +1 et une séquence de dix -1 sont données respectivement par, ps1 1 ( p11 )9 (0.2)(0.6)9 0.0020 et ps2 1 ( p2 2 )9 (0.8)(0.9)9 0.3099 Comparons avec le cas d’une séquence de Bernouilli de 10 +1 et d’une séquence de Bernouilli de 10 -1 (réalisations indépendantes). Les probablités (beaucoup plus faibles !) sont données par, (0.2)10 1.024 x 107 et (0.8)10 0.1074 35 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 UNIVERSITÉ DE SHERBROOKE Chaîne de Markov - stationnarité Pour le cas général, les n équations de la chaîne de Markov à états provenant de l’égalité n T T psta psta ou psta I 0 ne sont pas indépendants puisque les lignes dans la matrice somme à l’unité. De façon équivalente, ceci peut être vu par la normalisation (mise en échelle) qui dit que nous ne devons résoudre que pour n-1 inconnus seulement. Puisque, p ji 1 j on peut ainsi enlever une équation sans perte d’information. Habituellement, on résout en terme d’un des pji et ensuite on applique la normalisation. La technique générale de résolution du système d’équations est par élimination gaussienne. UNIVERSITÉ DE 36 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 18 Chaîne de Markov - stationnarité Note: un processus de Markov n’est pas nécessairement stationnaire en tout temps. Si une chaîne de Markov lors de son évolution vient à tomber sur une distribution de probabilité stationnaire de ses états, alors la distribution des x(n)s devient invariant et la chaîne devient un processus stationnaire à partir de ce moment. La chaîne peut devenir stationnaire dès le premier pas temporel (n0 +1) ou plus tard. Notez que, même si une chaîne de Markov a une distribution initiale stationnaire, (i.e., la distribution de x(n0) ), il peut ne jamais tomber sur une distribution stationnaire par la suite. En général, les processus de Markov n’ont pas de distribution stationnaire. Mais si elles en ont, elles peuvent en avoir plus d’une tout au long de son évolution. NOTE: une marche aléatoire simple n’a pas de distribution stationnaire (puisqu’elle a un nombre infini d’états). Theorème utile: Une chaîne de Markov ayant un nombre fini d’états a au moins une distribution des probabilités des états qui est stationnaire. UNIVERSITÉ DE 37 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Chaîne de Markov Marche aléatoire On se souvient qu’une marche aléatoire est un processus markovien homogène avec un nombre infini d’états. Supposons que nous prenons une marche aléatoire limitée par deux barrières rebondissantes situées à -2 et à +2. . La chaîne de Markov correspondante est stationnaire et comporte 5 états S={-2,-1,0,1,2}. Le graphe correspondant est , 1 1/2 1/2 1/2 1/2 1/2 1/2 1 NB: La marche aléatoire et ses variantes sont des cas particuliers d’un modèle plus général appelé “naissance et décès” caractérisé par une matrice de transition tridiagonale. UNIVERSITÉ DE 38 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 19 Chaîne de Markov Marche aléatoire Et la matrice de transition est donnée par, 0 1 0 0 0 ½ 0 ½ 0 0 0 ½ 0 ½ 0 0 0 ½ 0 ½ 0 0 0 1 0 psT I 0 En résolvant p 1 si i ps 1/ 8,1/ 4,1/ 4,1/ 4,1/ 8 T On obtient NB: Pour le cas général non-stationnaire, les probabilités d’états dépend de n. UNIVERSITÉ DE 39 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE La chaîne de Markov Exemple météo: Supposons que la pluie aujourd’hui dépend de la température des deux derniers jours. Spécifiquement: La probabilité de pluie aujourd’hui est de 0.5 s’il a plu les deux derniers jours. La probabilité de pluie aujourd’hui est de 0.4 s’il a plu hier seulement. La probabilité de pluie aujourd’hui est de 0.3 s’il a plu avant-hier seulement. La probabilité de pluie aujourd’hui est de 0.2 s’il n’a pas plu les deux derniers jours. Montrez que ce processus peut être modélisé par une chaîne de Markov à 4 états. Trouvez la matrice de transition. UNIVERSITÉ DE 40 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 20 La chaîne de Markov Exemple météo: solution Les 4 états possibles correspondent au 4 combinaisons possibles du temps des 2 derniers jours. Pour trouver les probabilités de transition, il P(Rn=1) Rn-1 Rn-2 faut considérer les cas possibles aujourd’hui 0.2 0 0 et regarder dans quel état ça nous amène 0.3 0 1 pour recalculer la météo de demain. 0.8 00 0.4 0.5 0.7 0.2 0.5 01 0.3 0.6 1 1 0 1 Exercice: Trouvez les probabilités des états stationnaires. 0.5 11 0.4 10 UNIVERSITÉ DE 41 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE La chaîne de Markov Définition: une chaîne de Markov est dite “irréductible” si pour tout i,j, pji(n) > 0 pour n quelconque. Autrement dit, n’importe quel état Sj peut être atteint en un nombre fini de pas temporel (coups d’horloge) à partir de n’importe quel autre état Si . La méthode la plus efficace pour vérifier l’irréductibilité d’une chaîne est d’en dessiner le graphe. NB: une marche aléatoire simple non bornée (sans contrainte) n’est pas une chaîne irréductible au sens stricte, car elle n’a pas un nombre fini d’états. Théorème: Une chaîne de Markov irréductible ayant un nombre fini d’états possède une distribution des probabilités d’état stationnaire unique. UNIVERSITÉ DE 42 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 21 Modèles de Markov cachés (HMM) Ce type de modèle est utilisé fréquemment dans l’analyse et la reconnaissance de la parole. Dans la figure suivante, on voit une structure typique d’un HMM à deux états. Il s’agit de 2 générateurs de processus aléatoires reliés à un commutateur qui est à son tour gouverné par une chaîne de Markov à deux états. Les positions du commutateur correspondent aux états 1 et 2 de la chaîne. Le signal observé x(n) à la sortie du commutateur résulte donc d’un multiplexage aléatoire des deux processus stochastiques générés. Le processus markovien des états du commutateur est non-observable directement, d’où le nom de processus ou modèle de Markov caché (Hidden Markov Model) UNIVERSITÉ DE 43 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Modèles de Markov cachés (HMM) Quelques remarques importantes: Les deux processus générateurs ne sont pas habituellement markoviens. C’est le processus caché (ici le commutateur à deux états) qui est markovien et qui n’est pas observables, d’où le nom de HMM. Les deux processus générateurs peuvent être continus ou discrets. Un HMM est un processus stochastique double. Correspond à un simple HMM, on retrouve 3 types de probabilités, Probabilité de l’état initial: probabilité de la sélection étant l’état i Probabilité d’observation: probabilité de choisir une valeur x(n) sachant qu’elle provient de l’état i Probabilité de transition: probabilité de choisir à partir de l’état j étant donné que le choix précédent provenait de l’état i UNIVERSITÉ DE 44 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 22 Représentation sous forme de treillis des HMM Exemple: HMM à trois états Chaque noeud du treillis est l’événement où une observation est générée alors que le modèle occupait l’état si o(n) UNIVERSITÉ DE 45 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Modèles de Markov cachés (HMM) Pour un processus HMM, on s’intéresse généralement à, Calculer la probabilité jointe (non conditionnelle) des observations f x x0 , x1 ,..., xn pour fin de classification. Par exemple, supposons que nous avons plusieurs modèles HMM représentant différentes classes de données ou des mots parlés, dans le cas de l’analyse de la parole. On veut déterminer quel modèle HMM est le plus probable d’avoir produit telle séquence observée (ici un mot parlé). Estimer la séquence des états du processus markovien en fonction du temps s(n), étant donné la séquence du signal observé x0 , x1 ,..., xn . Par exemple, dans l’observation d’une chaîne de Markov binaire représentant un message de télécom dans du bruit additif. La séquence capté par le récepteur consiste en la séquence du message (ici la séquence des états) plus le bruit additif. Alors que le message ne peut prendre que deux valeurs (2 états), la séquence observée peut prendre une infinité de valeurs possibles à cause du bruit. UNIVERSITÉ DE 46 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 23 Modèles de Markov cachés (HMM) La probabilité jointe des observations f x x0 , x1 ,..., xn à partir de la probabilité jointe du HMM, f x x0 , x1 ,..., xn pourrait être calculée f x x0 , x1 ,..., xn , s0 , s1 ,..., sn , , i.e., f x x0 , x1 ,..., xn , s0 , s1 ,..., sn , toutes les séquences s Or avec la règle de Bayes, f x x0 , x1 ,..., xn , s0 , s1 ,..., sn , f x x0 , x1 ,..., xn s0 , s1 ,..., sn Pr( s0 , s1 ,..., sn ) En supposant les états indépendants et les observations indépendantes pour un même état, nous aurons avec la propriété markovienne, n f x x0 , x1 ,..., xn , s0 , s1 ,..., sn , f x x0 , x1 ,..., xn s0 , s1 ,..., sn ps0 psk sk 1 n f x x0 , x1 ,..., xn , s0 , s1 ,..., sn , f x s xk sk psk sk 1 k 0 k 0 UNIVERSITÉ DE 47 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Modèles de Markov cachés (HMM) Si les états prennent Q valeurs possibles, alors la complexité du processus est proportionnelle à Qn+1 combinaisons des séquences [ s0 , s1 ,..., sn ]. Autrement dit, la complexité augmente exponentiellement en fonction de n. Exemple: Avec n observations et Q états dans le modèle HMM: Qn+1 séquences d’états possibles (pour une topologie ergodique) Approximativement 2nQ n+1 opérations requises Pour 100 observations et un HMM à 5 états: environ 1072 opérations ! Heureusement, il existe des algorithmes qui permettent de réduire cette complexité à une fonction linéaire de la longueur n. Nous allons sommairement voir trois de ces méthodes: La méthode de calcul vers l’avant (méthode « forward ») La méthode de calcul vers l’arrière (méthode « backward ») La méthode de Viterbi 48 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 UNIVERSITÉ DE SHERBROOKE 24 Problèmes de base des HMM 1. Évaluation: 1. 2. Problème: calculer la probabilité d’observation de la séquence d’observations étant donnée un HMM (choix du modèle): Solution: Algorithme Forward ou Backward 2. Décodage: 1. 2. Problème: trouver ou estimer la séquence d’états qui maximise la probabilité de la séquence d’observations Solution: Algorithme de Viterbi 3. Entraînement: 1. 2. Problème: ajuster les paramètres du modèle HMM afin de maximiser la probabilité de générer une séquence d’observations à partir de données d’entraînement (cas de classification) Solution: Algorithme Forward-Backward (algorithme Baum-Welch) UNIVERSITÉ DE 49 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE L’algorithme « forward » La probabilité jointe des observations f x x0 , x1 ,..., xn peut être calculée comme suit à partir de l’algorithme « forward » (vers l’avant). Q Q i 1 i 1 f x x0 , x1 ,..., xn f xsn x0 , x1 ,..., xn , sn i, i ( n) Où l’on définit La probabilité de i (k ) f xsk x0 , x1 ,..., xk , sk i αi(k) à son tour est calculée à partir des k-1 observations, Q i (k ) f xsk sk 1 x0 , x1 ,..., xk 1 , xk , sk i, sk 1 j j 1 Si l’on définit les évènements A, B, C comme, A x0 , x1 ,..., xk 1 , sk 1 j , B ( sk i ), et C ( xk ) UNIVERSITÉ DE 50 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 25 L’algorithme « forward » La loi des probabilités en chaîne nous donne, f ( A, B, C ) f ( A) f ( B A) f (C B ) Ce qui nous mène à f ( A) Q f ( B A) f (C B ) i (k ) f xsk 1 x0 , x1 ,..., xk 1 , sk 1 j Pi j f x s ( xk sk i ) , j 1 ou, Q i (k ) i ( k 1)Pi j f x s ( xk sk i) j 1 Ce qui veut dire que condition initiale, αi(k) peut être calculé de façon récursive avec la i (0) psi f x s ( x0 s0 i ) UNIVERSITÉ DE 51 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE L’algorithme « forward » Structure en treillis montrant la dépendance parmi les variables « forward » αi(k). Graphe illustrant le flux du calcul pour une variable « forward » αi(k). UNIVERSITÉ DE 52 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 26 Exemple de l’algorithme « forward » Probabilité des observations (A ou B) lorsqu’on est dans l’état S0 Probabilité de transition Probabilité des états initiaux Probabilité des observations (A ou B) lorsqu’on est dans l’état S1 UNIVERSITÉ DE 53 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE L’algorithme « backward » f x x0 , x1 ,..., xn s’écrit, Dans cette méthode, la probabilité jointe voulue Q f x x0 , x1 ,..., xn f xs0 x0 , x1,..., x n , s 0 i , i 1 Q Pr s0 i f x s ( x0 s0 i ) f x1 ,..., xn s0 i i 1 Si l’on définit i (k ) f x s xk 1 ,..., xn sk i k La dernière expression de f x x0 , x1 ,..., xn devient, Q f x x0 , x1 ,..., xn psi i (k ) f x s x0 s0 i i 1 k UNIVERSITÉ DE 54 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 27 L’algorithme « backward » On détermine maintenant une façon récursive pour calculer les βi(k): i (k ) f x s xk 1,..., xn sk i k Q f j 1 xsk 1 sk Si l’on définit les évènements x k 1 , xk 2 ,..., x n , s k 1 j s k i A, B, C comme, A xk 2 ,..., xn , sk 1 j , B ( sk 1 j ), et C ( xk 1 ) f ( A, B, C ) f ( A) f ( B A) f (C B ) Q i ( k ) f xk 2 ,..., xn sk 1 j Pr sk 1 j sk i f x s ( xk 1 sk 1 j ) j 1 Ce qui donne, avec la condition initiale, Q i ( k ) j (k 1)Pj i f x s ( xk 1 sk j ) j 1 i (n) 1, i 1,...Q UNIVERSITÉ DE 55 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE L’algorithme « backward » Le treillis de calcul est illustré comme suit: Structure en treillis montrant la dépendance parmi les variables « backward » βi(k). 56 8-févr.-13 Graphe illustrant le flux du calcul pour une variable « backward » βi(k). D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 UNIVERSITÉ DE SHERBROOKE 28 Exemple de l’algorithme « backward » Probabilité des observations (A ou B) étant donné que l’on soit dans l’état S0 Probabilité des états initiaux Probabilité de transition Probabilité des observations (A ou B) étant donné que l’on soit dans l’état S1 UNIVERSITÉ DE 57 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Estimation de la séquence d’états (Viterbi) Une façon d’estimer la séquence d’états s(n) la plus probable étant donnée la séquence d’observation x(n) est de maximiser la densité conditionnelle, f s x s x f x,s x , s / f x ( x) par rapport à s. Cette technique appelé Maximum à postériori (MAP) sera traité plus en détails dans la section sur les techniques d’estimation. Étant donné que fx(x) n’est pas une fonction de s, l’estimation MAP est équivalente à maximiser la densité conjointe f x ,s x , s . Pour le cas présent, cette densité de probabilité est donnée par, n f x x0 , x1 ,..., xn , s0 , s1 ,..., sn , f x s xk sk psk sk 1 k 0 La maximisation de f x x0 , x1 ,..., xn , s0 , s1 ,..., sn , pour toutes les séquence d’états s0 , s1,..., sn est équivalente à maximiser celle de log f x x0 , x1,..., xn , s0 , s1,..., sn , max f x ,s x , s max log f x , s x , s min log f x , s x , s s s s UNIVERSITÉ DE 58 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 29 Estimation de la séquence d’états (Viterbi) On peut ainsi définir le critère de performance avec: n n W log f x ,s x, s log f x s xk sk log psk sk 1 k 0 k 0 Et en définissant: Vi (k ) log f x s xk sk i , 1 i Q, 0 k n B ji ( k ) log psk sk 1 ( sk i sk 1 j ) On obtient alors, n W Vi (k ) B ji ( k ) k 0 La maximisation de W (ou min de –W) consiste à trouver le chemin optimal dans le treillis à la figure suivante où les termes Vi(k) sont associés avec les nœuds et les termes Bji(k) avec les branches. C’est l’algorithme de Viterbi. UNIVERSITÉ DE 59 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Estimation de la séquence d’états (Viterbi) Le chemin optimal trouvé ici sur la figure correspond à la séquence d’états [s(0)=2, s(1)=1, s(2)=3, s(3)=2,…s(n)=3]. UNIVERSITÉ DE 60 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 30 Estimation de la séquence d’états (Viterbi) La recherche du chemin optimal est basée sur le principe suivant : supposons qu’un chemin optimal partant de la colonne 0 a été trouvé pour chaque nœud j de la colonne (k-1) avec une performance Wj(k-1). Un de ces chemins possibles fait partie du chemin optimal pour n’importe quel nœud des colonnes subséquents. La performance totale du chemin à partir de la colonne 0, qui passe par le nœud j’ à la colonne (k-1) et qui le relie au nœud i de la colonne suivante k est donc égale à, W j ' (k 1) Vi ( k ) B j 'i (k ) Si le parcours est vraiment optimal, alors le nœud j’ est celui qui maximise cette quantité. La performance optimale pour chaque nœud i de la colonne k est alors donnée par, Wi (k ) max W j (k 1) B ji (k ) Vi (k ) j La procédure de calcul se fait donc de colonne en colonne et vers l’avant en fonction de n. À chaque colonne k, on calcule la performance Wi(k) pour chaque nœud i. À la dernière colonne, on choisit parmi Q états restant qui a la meilleure performance. L’algorithme de Viterbi est la version « forward » de la programmation dynamique. UNIVERSITÉ DE 61 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Estimation de la séquence d’états (Viterbi) Exemple: L’humeur s de votre conjoint(e) est changeant. Il est soit joyeux (i), soit triste (j). Vous aimeriez estimer ses « états d’âme » à partir de l’expression de son visage. On a les observations (sourire (k) ou grimace (l)) en fonction du temps. La probabilité de changer d’humeur est a et donc (1-a) la probabilité de ne pas changer. b est la probabilité (Bernouilli) que l’expression du visage soit consistante avec l’état d’âme. Ici, a=0.1, b=0.8, n=200 dans les figures présentées. Faites le diagramme d’état. s (n 1) i s (n) i a b p s n i s (n 1) 1 a s (n 1) i p x n k s ( n) 1 b s(n) i i j k l UNIVERSITÉ DE 62 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 31 Estimation de la séquence d’états (Viterbi) On a un HMM à 2 états et 2 processus de Bernouilli sous-jacents avec probabilités (b et (1-b)). Vous estimez son humeur à l’aide de l’algorithme de Viterbi. La séquence du bas illustre la comparaison entre la séquence vraie de ses « états d’âme » versus ceux estimés par l’algorithme de Viterbi. p =a ij pii= 1-a i j pjj= 1-a pji= a UNIVERSITÉ DE 63 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Estimation de la séquence d’états (Viterbi) Schéma entrées-sortie de l’algorithme de Viterbi Alphabet (valeurs possibles observées) Probabilités initiales des états Probabilités de transition Algorithme de Viterbi Séquence d’états la plus probable Séquence observée NB: l’algorithme de Viterbi est un algorithme de traitement en lot (batch processing). UNIVERSITÉ DE SHERBROOKE 32 Processus de comptage Dans l’exemple d’un processus de Bernouilli du cours précédent, nous avions rencontré un processus de comptage. Il fallait compter le nombre de 1s sur une période de temps relativement longue (« sign test »). Regardons de plus près ces processus de comptage. Soit N(t) le nombre d’évènements aléatoires ξi se produisant dans un intervalle de temps [0,t]. En supposant N(0) =0, nous avons, N (t ) i (ti ) se produisant pour 0 ti t i ou N (t ) : t 0 UNIVERSITÉ DE 65 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE La structure d’un processus de comptage Soit l’espace de probabilité , F , P : F Ft : t 0 avec les évènements discrets, i i 1 nous avons le processus suivant, 1 3 4 2 0 1er évènement arrivé 2eme 3eme 4eme On suppose que les i i 1 correspondent à un processus stationnaire (SSS) et ergodique composé de v.a. positives. UNIVERSITÉ DE 66 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 33 Processus de comptage Un processus stochastique {N(t) : t ≥ 0} est dit un processus de comptage si N(t) représente le nombre total d’évènements qui se sont produits jusqu’au temps t. N (0) 0 N(t) doit satisfaire les conditions suivantes: N(t)>0 N(t) est un nombre entier Si t1< t2, then N(t1) < N (t2) (monotone croissant) Pour t1< t2, N(t2) - N(t1) égale le nombre d’évènements se produisant dans l’intervalle [t1, t2] UNIVERSITÉ DE 67 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus de comptage Accroissements d’un processus de comptage Soit les intervalles de temps uniformes, ( I1 , I 2 , I 3 ...I k ...) Pour chaque intervalle, on a un nombre d’évènements correspondant, N1 , N 2 , N 3 ,..., N k ... Chaque N k se nomme un accroissement et appartient à Les accroissements suivent une loi de probabilité Pk . Pr N (t2 ) N (t1 ) k ( (t2 t1 ))k exp( (t2 t1 )) , k 0 k! UNIVERSITÉ DE 68 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 34 Processus de comptage Quelques propriétés (suite) Le processus de comptage est dit à accroissements indépendants si pour tout intervalle de temps disjoint Ik , les nombres d’évènements Nk sont indépendants. Attention, cela ne veut pas dire qu’ils sont stationnaires ! Le processus de comptage est dit à accroissement indépendant t > 0, τ > 0, [N(t+τ) - N(t)] a une distribution qui ne dépend seulement que de τ , la longueur de l’intervalle de temps. stationnaire si pour tout Un processus de comptage est dit continu en probabilité si, t 0, lim Pr N (t ) N (t ) 1 0 0 UNIVERSITÉ DE 69 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus de Poisson C’est un processus de comptage N (t ) : t 0, ayant un taux (intensité) de λ > 0, qui vérifie avec N(0)=0, les propriétés suivantes: a) Il s’agit d’un processus N (t ) : t 0 à accroissements indépendants b) Le processus a des accroissements distribués suivant la distribution de probabilité de Poisson, i.e. ( )k exp( ) Pr N (t ) N (t ) k , k 0 k! c) C’est un processus à accroissements stationnaires (SSL) d) C’est un processus localement continu en probabilité UNIVERSITÉ DE 70 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 35 Processus de Poisson Les moments statistiques d’un processus de Poisson ( (t ))k exp( (t )) Pr N (t ) N (t ) N (0) k , k 0 k! E N (t ) t var N (t ) E N 2 (t ) E 2 N (t ) t 2t 2t 2 var N (t ) t E N (t ) RN (t ) (t1 , t2 ) 2t1 t2 min( t1 , t2 ) 2 t2 t1t2 , t1 t2 RN (t ) (t1 , t2 ) 2 t1 t1t2 , t1 t2 Non stationnaire ! UNIVERSITÉ DE 71 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus de Poisson Pour arriver à ce dernier résultat, nous utilisons le fait que, E[ N (t )] E[ N (0, t )] t E[ N 2 (t )] E[ N 2 (0, t )] t 2t 2 var N (t ) E 2 N (t ) E[ N (0, t1 ) N (t1 , t2 )] E[ N (0, t1 )]E[ N (t1 , t2 )] 2t1 (t2 t1 ). Supposons pour l’instant que t1 t2 , alors les v.a. N(0, t1) and N(t1, t2) sont indépendantes et suivent une loi de Poisson avec les paramètres respectifs t et (t 2 t1 ) . Ainsi, 1 E[ N (0, t1 ) N (t1 , t2 )] E[ N (0, t1 )]E[ N (t1 , t2 )] 2t1 (t2 t1 ) Or, Et, N (t1 , t2 ) N (0, t2 ) N (0, t1 ) E[ N (0, t1 ){N (0, t2 ) N (0, t1 )}] RN ( t ) (t1 , t2 ) E[ N 2 (t1 )]. RN (t ) (t1 , t2 ) 2t1 (t2 t1 ) E[ X 2 (t1 )] t1 2t1 t2 , t1 t2 . UNIVERSITÉ DE 72 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 36 Processus de Poisson Pour t to , N (to ) est une v.a. distribuée Poisson t1 t2 t3 UNIVERSITÉ DE 73 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus de Poisson Les moments statistiques des accroissements de Poisson N (t ) N (t ) , accroissement normalisé y (t ) y (t ) 2 / 1/ 1 1 E N (t ) E N (t ) , constante, indépendant de t E y (t ) Pour le cas non normalisé , Ry (t ) (t1 , t2 ) 2 E y (t1 ) y(t2 ) 2 2 , t Ry (t ) (t1 , t2 ) E y (t1 ) y (t2 ) 2 , constante Stationnaire au sens large ! indépendant de t , invariant en translation UNIVERSITÉ DE 74 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 37 Distribution des intervalles de temps d’inter-arrivée et des temps d’arrivée d’un processus de Poisson Soit 1 , représentant l’intervalle de temps d’arrivé du premier évènement (délai) à partir de n’importe quel point de référence t0. Pour déterminer la PDF de la variable aléatoire 1 , nous procédons comme suit: d’abord, nous pouvons observer que l’évènement " 1 t" est le même que “N(t0, t0+t) = 0 ”, et que l’évènement complémentaire " 1 t" est le même que l’évènement “N(t0, t0+t) > 0 ” . La fonction de distribution de 1 est alors donnée par, F1 (t ) P{ 1 t} P{N (t ) 0} P{N (t0 , t0 t ) 0} 1 P{N (t0 , t0 t ) 0} 1 e t 1er arrivée 2eme arrivée neme arrivée t0 1 t1 t2 tn t UNIVERSITÉ DE 75 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Distribution des intervalles de temps d’inter-arrivée et des temps d’arrivée d’un processus de Poisson La dérivée donne la PDF de 1 f1 (t ) dF1 (t ) dt e t , t 0 i.e., 1 est une v.a. ayant une PDF exponentielle avec pour moyenne E ( 1 ) 1 / . UNIVERSITÉ DE 76 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 38 Distribution des intervalles de temps d’inter-arrivée et des temps d’arrivée d’un processus de Poisson De façon similaire, prenons tn comme étant le temps d’arrivée du nième évènement d’un processus de Poisson. Alors, nous trouvons, Ftn (t ) P{tn t} P{N (t ) n} ( t ) k t e k 0 k ! n 1 1 P{N (t ) n} 1 Et la PDF correspondante, n 1 dFt (t ) (t ) k 1 t n1 (t ) k t f t n (t ) n e e dt k! k 1 ( k 1)! k 0 n x n1 t e , ( n 1)! t0 Qui représente une distribution gamma pour le temps d’attente jusqu’au nème évènement. UNIVERSITÉ DE 77 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Distribution des intervalles de temps d’inter-arrivée et des temps d’arrivée d’un processus de Poisson De plus, n tn i i 1 Où les i sont les intervalles de temps entre l’arrivée du ième évènement et de l’évènement (i – 1). Notez que les i sont des v.a. iids (indépendantes et identiquement distribuées). Ainsi, en utilisant leur fonction caractéristique on peut montrer que tous les intervalles de temps d’inter-arrivée d’un processus de Poisson sont des variables aléatoires indépendantes qui suivent une PDF exponentielle ayant pour paramètres λ. t f i (t ) e , t 0. De façon alternative, sachant que 1 est une v.a. exponentielle, en répétant l’argument avec un simple décalage de t0 à t0+ τ1, nous trouvons que 2 est aussi une v.a. exponentielle. On peut donc conclure que les intervalles de temps d’inter-arrivée suivent la même loi. UNIVERSITÉ DE 78 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 39 Processus à impulsions de Poisson La dérivée d’un processus de Poisson d () dt N (t ) z (t ) z (t ) z (t ) dN (t ) (t ti ) , à taux dt i E z (t ) , t constante, indépendant de t Rz ( t ) (t1 , t2 ) E z (t1 ) z (t2 ) 2 (t1 t2 ) 2 ( ), indépendant de t , invariant en translation Donc, z (t ) est stationnaire SSL ( pour constant ) UNIVERSITÉ DE 79 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus à impulsions de Poisson Pour montrer que z(t) est stationnaire SSL, on peut voir que z (t ) (t ) d N (t ) (t ) dt d t , dt constante Et puisque la corrélation croisée entrée-sortie est égale à , t1 t2 RN ( t ) (t1 , t2 ) 2t1 2 t2 t1 t1 t2 2t1 U (t1 t2 ), où est la fonction échelon RN ( t ) z ( t ) (t1 ,t2 ) La fonction d’autocorrélation de Rz (t ) (t1 ,t2 ) z(t) devient, RN ( t ) z (t ) (t1 , t2 ) t1 2 (t1 t2 ). UNIVERSITÉ DE 80 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 40 Bruit de grenaille “shot noise” Soit un système linéaire invariant dans le temps ayant une réponse impulsionnelle h(t) et à l’entrée un processus à impulsion de Poisson z(t). z (t ) s(t ) h(t ) Le bruit de grenaille devient, s (t ) h(t ti ) z (t ) * h(t ) i E s(t ) H (0) Alors, Rs (t ) ( ) 2 H 2 (0) h( t )h(t )dt et, Puisque SSL. 81 z(t) est stationnaire SSL, alors le bruit de grenaille est aussi stationnaire UNIVERSITÉ DE 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Somme de deux processus de Poisson indépendants y (t ) N1 (t ) N 2 (t ) Soit, Alors, Pr y (t ) k ( )t 1 2 k exp( (1 2 )t ) k! , k 0 Ainsi la somme de deux processus de Poisson indépendants est aussi un processus de Poisson ayant pour paramètre ( 1 2 )t. Exercice 1: Trouvez les moments d’ordre 1 et 2 de Exercice 2: Si Trouvez y(t) y (t ) N1 (t ) N 2 (t ) Pr[(y(t) = k] ainsi que les moments d’ordre 1 et 2 de y(t) UNIVERSITÉ DE 82 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 41 Fonction d’un processus de Poisson Soit le processus binaire défini par, y (t ) ( 1) N (t ) Arrivées de Poisson Ce processus représente par exemple un signal télégraphique ou de télécommunications numériques. Notez que les instants de transition t ti t1 0 N (t ) {ti} sont aléatoires. Même si N(t) n’est pas stationnaire, on peut montrer que y(t) est stationnaire SSL. t y(t ) 1 « Basculeur poissonnien » t1 t 1 Exercice: trouvez la PDF et les moments 1 et 2 de y(t) UNIVERSITÉ DE 83 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Distribution conditionnelle des temps d’arrivées de Poisson Pour une séquence aléatoire x1,…xn , l’arrangement ordonné statistique du ieme ordre est la ieme plus petite valeur, notée x(i) . Théorème: Supposons que N(t)= n, les n temps d’arrivée t1, t2,…tn ont la même distribution que les statistiques de l’arrangement ordonné correspondant à n variables aléatoires indépendantes distribuées uniformément dans l’intervalle (0, t). f s (t1 ,…tn | n)= n! / tn, 0 < t1 …< tn Corrolaire : Lorsque tn= t, le sous-ensemble constitué de t1,…tn-1 possède une distribution d’un ensemble de n-1 v.a iid uniformément distribuées dans l’intervalle (0,t). UNIVERSITÉ DE 84 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 42 Distribution conditionnelle des temps d’arrivées de Poisson Autrement dit: Si un processus de Poisson avec N(t) = n, alors n évènements se sont produits dans l’intervalle de temps [0,t] Soit t1,…tn les temps d’arrivée de ces n évènements. Alors la distribution des temps d’arrivée t1,…tn est la même que la distribution de l’arrangement ordonné de n variables aléatoires identiques et indépendantes uniformément distribué sur [0,t]. Ceci est raisonnable intuitivement, car le processus de Poisson a des accroissements stationnaires et indépendants. Aussi, nous nous attendons à ce que les temps d’arrivé soit uniformément distribués sur l’intervalle [0,t]. UNIVERSITÉ DE 85 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus de Poisson Quelques remarques sur les processus de Poisson Un processus de Poisson est un processus markovien à saut, i.e. il a la propriété markovienne avec un espace d’état discret en temps continu. Il n’est pas stationnaire. On peut voir ce processus comme la généralisation stochastique d’un processus de comptage déterministe. Une v.a. distribuée Poisson est le cas limite d’une v.a. distribuée binomiale (n très grand et p très petit, λ = np). La loi de Poisson est attribuable à Siméon D. Poisson (mathématicien français 1781-1840). Il la publia en 1837 dans un ouvrage: Recherche sur la probabilité de jugements en matière criminelle et en matière civile. UNIVERSITÉ DE 86 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 43 Processus de Poisson composé Représentation graphique d’un processus de poisson composé (qui est un processus stochastique double) Dans un processus de poisson ordinaire, seulement un évènement se produit à un temps d’arrivée t (voir figure à gauche). Dans un processus de Poisson composé, un nombre aléatoire d’évènements, Ct se produit simultanément à chaque temps d’arrivée t (figure de droite). C13 C2 2 t1 t2 tn t t1 t2 Ci 4 tn t Processus de Poisson composé Processus de Poisson UNIVERSITÉ DE 87 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus de Poisson composé {N(t), t 0, N(0)=0} un processus de Poisson et soit {zi, i 1} une famille de variables aléatoires iid, (ex. bruit blanc) Soit indépendantes du processus de Poisson. N (t ) Si on définit x(t) zi, t 0 i1 Alors {x(t), t 0} est un processus de Poisson composé. Exemple: L’arrivée d’un bus à une gare d’autobus est modélisé par un processus de Poisson. Le nombre de passagers arrivant sur chaque bus est indépendant et distribué identique (iid). Le nombre de gens qui arrivent à la gare avant le temps t, sera modélisé par un processus de Poisson composé x(t). UNIVERSITÉ DE 88 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 44 Processus de Poisson composé Moments statistiques d’un processus de Poisson composé: E[x(t)] = λt E[zi] Var[x(t)]=λt E[zi] Exercice simple: supposons que les familles migrent dans une région à un taux hebdomadaire de Poisson λ = 2, i.e. deux familles par semaine. Si le nombre de personnes dans chaque famille est indépendant et prend pour valeur 1, 2, 3, 4 avec une probabilité respective de 1/6, 1/3, 1/3, 1/6, quelle est la valeur de la moyenne et de la variance de x(t), le nombre d’individus qui migrent dans la région pour une période de 5 semaines ? UNIVERSITÉ DE 89 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE Processus de Poisson composé Autre exemple: Supposons que le nombre de clients qui quittent un supermarché après un temps t suit un processus de Poisson. Supposons maintenant que le montant dépensé par client est indépendant et distribué identique (iid). Le montant total dépensé au supermarché après un temps t sera modélisé par un processus de Poisson composé x(t). UNIVERSITÉ DE 90 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 45 Applications du modèle de Poisson Génie électrique (systèmes de files d’attentes ) télécommunications numériques, téléphonie, trafic de données etc. Analyse et diagnostique des pannes. Métrologie optique, astronomie, recensement Chimie, physique nucléaire, radioactivité Biologie, biogénétique (ex. nombre de mutations), recensement d’espèces Économétrie, finance et assurance (nombre d’actions, nombre de réclamations etc…) Histoire: nombre d’occurrence d’un évènement par intervalle de temps (ex. nombre de bombes allemandes tombées sur Londres par mois lors de la 2e guerre mondiale). Exemple historique célèbre: (Bortkiewicz, 19e siècle)-nombre de soldats de la cavalerie prussienne tués chaque année par un coup de sabot d’un cheval qui rue….(sic!). UNIVERSITÉ DE 91 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 SHERBROOKE 46