Biostatistiques et statistiques appliquées aux sciences expérimentales

publicité
Biostatistiques et statistiques appliquées
aux sciences expérimentales
Introduction aux statistiques Bayésiennes
Jérémie Mattout
Cogmaster A4 2006-2007
Programme de la séance
• Introduction
• Rappels sur la théorie des probabilités
• Principes de l’inférence Bayésienne
• Application en Neuroimagerie
• Conclusion
INTRODUCTION
Introduction
Statistiques: domaine cousin mais distinct des Mathématiques
Statistiques appliquées
Statistiques théoriques/mathématiques
Statistiques descriptives
présentation, description et résumé des données
Statistiques inférentielles
Modélisation et prise en compte du caractère aléatoire et de l’incertitude
Pour le test d’hypothèse et/ou l’inférence de variables cachées ou inconnues
Introduction
Statistiques: ont connu leur véritable essor au XXème siècle
Etymologie
Mot d’abord allemand, issu du latin moderne
et de l’italien (‘relatif à l’Etat’)
Définitions
A la fois le domaine scientifique et les données collectées
Domaines d’application
Démographie, Santé, Economie, Psychologie,
Education, Finances …
S’appuient sur une théorie plus ancienne, celle des probabilités…
Introduction
Probabilité: notion apparue fin XVIème , début XVIIème
B. Pascal (1623-1662)
A-M. Legendre (1752-1833)
AC-F. Gauss (1777-1855)
C. Huygens (1629-1695)
A. de Moivre (1667-1754)
P-S. Laplace (1749-1827)
J. Bernouilli (1654-1705)
P. de Fermat (1601-1665)
Notion bien comprise universellement, pourtant pas d’interprétation unique
Interprétation fréquentiste
Interprétation bayésienne
RAPPELS SUR
LA THEORIE DES PROBILITES
Rappels sur la théorie des probabilités
Qu’est-ce qu’une probabilité ?
Définition classique (Laplace)
Si une expérience aléatoire peut résulter en N événements équiprobables et mutuellement exclusifs.
Si un nombre Nt de ces événements est de type t, alors la probabilité d’un résultat de type t est:
P(t ) =
- Uniquement pour un nombre fini de résultats possibles
- Uniquement pour des événements équiprobables
Nt
N
Définition fréquentiste
La probabilité d’un événement est sa fréquence relative d’occurrence, après avoir répété l’expérience un grand
nombre de fois (idéalement un nombre infini de fois).
Si Nt est le nombre d’occurrence d’événements de type t parmi N essais:
P(t ) = lim
N "!
Nt
N
- Approche objective
- Il est généralement impossible de répéter une
même expérience un très grand nombre de fois
Rappels sur la théorie des probabilités
Qu’est-ce qu’une probabilité ?
Définition bayésienne
T. Bayes (1702-1761)
Mesure du degré de croyance ou de l’incertitude qu’un individu assigne à un événement ou une situation
- S’applique à tout type d’événements ou phénomènes
- Approche subjective
- Nécessite de définir un a priori qui pourra varier selon les
individus
- Peut bien entendu prendre en compte un avis objectif
e.g.1: les cotes sont fixées en fonction des paris (subjectifs)
e.g.4: quelle est la probabilité qu’ils diront la vérité ?
e.g.2: quelle est la probabilité d’une chute ?
e.g.3: probabilité d’être contrôlé au prochain coin de rue ?
Rappels sur la théorie des probabilités
Controverse dans la définition/l’interprétation d’une probabilité - Résumé
Approche fréquentiste
Approche bayésienne
- Probabilité = limite de la fréquence relative de
l’événement, pour un grand nombre d’essais
- Probabilité = degré de croyance, mesure de
l’incertitude
- N’est défini que dans le cadre d’expériences
aléatoires bien définies
- S’applique à tout type d’événements ou de
situations
- Recherche de l’objectivité
- Approche subjective
T. Bayes (1702-1761)
J. Neyman (1894-1981)
R.A. Fisher (1880-1962)
E.S. Pearson (1895-1980)
P-S. Laplace (1749-1827)
H. Jeffreys (1891-1889)
Statistiques inférentielles classiques
Statistiques inférentielles bayésiennes
Rappels sur la théorie des probabilités
Approche Mathématique…:
Probabilité = vraisemblance qu’une ‘chose’ soit, ait été, existe ou advienne
Indépendamment des débats parfois philosophiques concernant l’interprétation d’une
probabilité, la théorie mathématique des probabilités s’est construite sur un certain nombre
d’axiomes concernant les phénomènes aléatoires.
Chances
Théorie moderne des probabilités
A.N. Kolmogorov (1903-1987)
Rappels sur la théorie des probabilités
Théorie unifiée des probabilités:
Espace des résultats
Cas discret
Cas continu
! = {x1 , x2 ,...}
!=R
F ( x) = p( X ! x)
f ( x) ! [0,1] #x " !
Propriétés
!
f ( x) = 1
x#"
f
F: fonction monotone, continue, non décroissante
lim F ( x) = 0
x # !"
lim F ( x) = 1
x "!
: fonction de masse
f =
dF
dx
: fonction de densité
Exemple
Pile ou Face ?
Température ici, à midi, le 15 Août 2007 ?
Rappels sur la théorie des probabilités
Théorie unifiée des probabilités:
Cas discret
Exemple
Cas continu
Température ici, à midi, le 15 Août 2007 ?
10 tirages à Pile ou Face ?
Loi Binomiale:
p ( X = x) = f ( x) = C xn p x (1 ! p )1! x
Loi Normale:
p( X ) ~ N ( µ , ! )
f ( x) =
1
! 2"
x
p( X " x) = ! f ( x)
0
20
p (10 " X " 20) =
! f ( x)dx
x =10
e
#
( x#µ )2
2! 2
Rappels sur la théorie des probabilités
La Loi des grands nombres:
Si un événement de probabilité p est observé de façon répétée, lors d’expériences identiques mais
indépendantes, la fréquence d’occurrence de cet événement par rapport au nombre d’expériences,
converge en probabilité vers p.
X i est une réalisation indépendante d’une variable aléatoire pouvant être égale à 1 avec une probabilité p
et à 0 avec une probabilité 1-p
Alors, n indiquant le nombre d’essais
&
$
lim
P$
$n('
$
%
n
)X
i =1
n
i
#
!
= p! =1
!
!
"
Fréquence
relative
# essais
Pile (0) ou Face (1) ?
Rappels sur la théorie des probabilités
Le théorème central limite:
Soit une suite de variables aléatoires indépendantes, de même loi, d’espérance et de variance
finies. Alors leur moyenne centrée, réduite, suit une loi normale de moyenne 0 et de variance 1.
Suite (X n ) d’espérance µ et de variance ! 2, alors
Zn =
Xn " µ
!2
n
suit une loi normale
N (0,1)
n
avec
Xn =
!X
i =1
n
i
Rappels sur la théorie des probabilités
L’espérance mathématique:
Valeur attendue, somme des gains (et pertes) pondérés par leur probabilité.
Cas discret
Cas continu
+"
Formule
E (X ) = ! X i p(X i )
E (X ) =
i
! xf ( x)dx
#"
Exemple
2 tirages à Pile (1) ou Face (0) ?
Température ici, à midi, le 15 Août 2007 ?
+$
E (X ) = 1. + 2. + 0. = 1
1
2
1
4
1
4
x
E (X ) = %
# $" 2!
e
#
( x#µ )2
2" 2
=µ
Rappels sur la théorie des probabilités
L’entropie de Shannon:
Mesure de l’incertitude liée à une variable aléatoire, ou encore la quantité moyenne d’information
Manquante lorsqu’on ne connaît pas la valeur de cette variable.
H (X ) = E (I (X )) = "! p(X i )ln (p(X i ))
Formule
i
Analogie en physique
ordre/structure
Manque d’information/entropie/incertitude
Rappels sur la théorie des probabilités
L’entropie de Shannon:
Exemple
Pile ou Face
H (X )
P(X =' Face')
Rappels sur la théorie des probabilités
Axiomes des probabilités (de Kolmogorov):
A : événement quelconque lié a la même expérience aléatoire
! : ensemble/univers des résultats possibles
(1)
0 ! P(A)! 1
(2)
P(! ) = 1
k
(3)
P(A1 " A2 L " Ak ) = ! P(Ai )
i =1
P(A ! B )
ou
P(A, B )
: probabilité jointe
pour des événements deux a deux incompatibles
Rappels sur la théorie des probabilités
Propriétés essentielles, découlant des axiomes de Kolmogorov:
-
P(' rien') = 0
-
P (A )= 1 ! P(A)
-
P(A # B ) = P(A)+ P(B )" P(A ! B )
-
P(A ! B ) = 0
-
P(A ! B ) = P(A).P(B )
-
Si
A
si
A
et
: complémentaire de
B
A
dans
!
quels que soient les événements
sont mutuellement exclusifs
si
A ! B alors P(A)! P(B )
A
et
B
sont indépendants
A
et
B
REGLE DE BAYES
Règle de Bayes
Probabilités conditionnelles:
P(A B )
: Probabilité de
A
sachant / connaissant / étant donné
P(A ! B )
P(A B )=
P(B )
Si
A
et
B
sont indépendants, alors
P(A B )= P(A)
B
Règle de Bayes
Probabilités conditionnelles:
Exemple
Considérons le test de dépistage d’une grave maladie. Plus tôt la maladie est détectée,
meilleur est le pronostic de survie.
Nous savons que dans la population
Nous savons également que
P(malade ) = 0.01
P(positif sain )= 0.01
et
P(malade positif )?
P(négatif malade )= 0.01
Règle de Bayes
Probabilités conditionnelles:
Exemple
Considérons le test de dépistage d’une grave maladie. Plus tôt la maladie est détectée,
meilleur est le pronostic de survie.
Nous savons que dans la population
Nous savons également que
On en déduit que
P(malade ) = 0.01
P(positif sain )= 0.01
et
P(négatif malade )= 0.01
P(positif malade )= 1 ! P(négatif malade )= 0.99
P(positif , malade ) = P(positif malade )P(malade ) = 0.0099
P ( positif ) = P ( positif ,sain ) + P ( positif ,malade) = 0.0198
et
!
P(malade positif )=
P(malade, positif )
= 0.50
P(positif )
Règle de Bayes
Probabilités totales ou marginales:
Cas discret
P(A) = ! P(A, Bk ) = ! P(A Bk )P(Bk )
k
k
Cas continu
P(X ) = ! P(X , Y )dY = ! P(X Y )P(Y )dY
Règle de Bayes
Probabilités totales ou marginales:
Exemple
Cas discret
Sur deux essais indépendants, quelle est la probabilité
d’obtenir ‘Face’ au deuxième essai ?
Pile ou Face (résultats équiprobables)
P (T2 = Face) = P (T2 = Face T1 = Face) P (T1 = Face)
+P (T2 = Face T1 = Pile) P (T1 = Pile)
= 0.5 * 0.5 + 0.5 * 0.5 = 0.5
!
Règle de Bayes
Théorème/Règle de Bayes
Cas discret
P(Bk A)=
P(Bk A)=
Cas continu
P(A Bk )P(Bk )
P(A)
P(A Bk )P(Bk )
! P(A B )P(B )
k
k
k
P(X Y )=
P(X Y )=
P(Y X )P(X )
P(Y )
P(Y X )P(X )
! P(Y X )P(X )dX
PRINCIPES DE
L’INFERENCE BAYESIENNE
Principes de l’inférence Bayésienne
Notion de modélisation:
- Formalisation mathématique d’un processus ou système réel/physique
(repose sur un ensemble d’hypothèses et d’approximations)
entrée
observations
modèle
Importance de la modélisation:
- Permet de simuler des données
- Permet l’estimation de paramètres non observés
- Permet de prédire de futures observations
- Permet de tester des hypothèses
Principes de l’inférence Bayésienne
Analyse/inférence Bayésienne:
- Appliquer un modèle probabiliste des observations comme des quantités à estimer
- Les quantités à estimer sont non observées
ge
e
pr
sa
tis
n
ap u nna
o co
re
sa
is
Paramètres
du modèles
e
nc
pr
éd
ic
tio
n
Futures
observations
- Une caractéristique essentielle de l’inférence Bayésienne réside dans l’utilisation
explicite de distributions de probabilités pour quantifier l’incertitude de l’inférence
Principes de l’inférence Bayésienne
Notations:
Y
: observations
!
: paramètres du modèle
~
Y
: données manquantes ou encore non observées
Principes de l’inférence Bayésienne
Trois étapes de l’inférence Bayésienne:
(1) Définition du modèle probabiliste complet, pour l’ensemble des quantités
observables et non observables: spécification de la probabilité jointe P Y , !
(
)
(2) Calculer et interpréter les distributions de probabilités a posteriori
(conditionnellement aux observations) des quantités non observées d’intérêt
(3) Evaluer la qualité des interprétations et du modèle, ainsi que la sensibilité des
résultats aux hypothèses du modèle
Principes de l’inférence Bayésienne
Modèle général:
Apprentissage/Reconnaissance
Probabilité jointe
P(Y , ! ) = P(Y ! )P(! )
vraisemblance des données
Distribution a posteriori
S’écrit parfois
P(! Y )=
P(Y ! )P(! )
P(Y )
P(! Y )" P(Y ! )P(! )
car
dist. a priori
loi marginale ou évidence
P(Y ) ne dépend pas de !
Principes de l’inférence Bayésienne
Modèle général:
Prédiction
Distribution prédictive a priori
P(Y )
Distribution prédictive a posteriori
~
~
P Y Y = " P Y ! P(! Y )d!
( )
( )
Mise à jour de l’a priori dans le cadre d’une analyse séquentielle: à l’arrivée de nouvelles
données, la distribution a posteriori devient la nouvelle distribution a priori
MISE EN PRATIQUE
Mise en pratique
Exercice n°1: exemple de démarche Bayésienne
Exercice n°2: exemple de modèle Bayésien
Exercice n°3: illustration des limites de l’approche classique
DISTRIBUTIONS A PRIORI
Distributions a priori
Un aspect central et critique de l’approche Bayésienne est la
formulation d’une distribution de probabilité a priori sur les
quantités non observées que l’on souhaite estimer.
Différentes stratégies possibles:
- A priori informatif permettant de guider au mieux l’estimation
- A priori non informatif afin de ne pas biaiser l’estimation et de ‘laisser
s’exprimer’ les données
- Un compromis entre les deux…
Distributions a priori
Construction d’un a priori
- Approche ‘pragmatique’: considérer les différentes valeurs possibles de θ et
leur assigner une probabilité telle que leur somme sera égale à 1.
ATTENTION: le support de la distribution a posteriori sera un sous-espace de celui de l’a priori.
Autrement dit, l’estimée a posteriori ne pourra pas prendre de valeurs non prévues par l’a priori.
- Approche paramétrique: on attribue une distribution de forme connue à notre
a priori sur θ. Alors l’a priori se résume à un petit nombre de paramètres (e.g.
moyenne et variance) et le support n’est plus fini.
ATTENTION: pas toujours applicable. Certaines distributions peuvent avoir des propriétés très
similaires mais conduire à des estimations a posteriori très différentes. Que choisir ?
Distributions a priori
A priori conjugué
- Etant donnée une loi de vraisemblance, un a priori conjugué est un a priori
dont la distribution est telle que la distribution a posteriori appartiendra à la
même famille de loi.
- Approche très utile et très employée, notamment dans le cadre d’un
apprentissage séquentiel.
Cas discret
Cas continu
Vraisemblance
A priori conjugué
Vraisemblance
A priori conjugué
Binomiale
Beta
Exponentielle
Gamma
Multinomiale
Dirichlet
Normal
Normal
Poisson
Gamma
Gamma
Gamma
Exemples
Distributions a priori
A priori non-informatif
Se dit d’une distribution qui ne favorise aucune valeur de θ par rapport aux autres.
Ainsi toute l’information nécessaire à l’estimation est fournie par les données. On
se rapproche alors de l’inférence classique, s’appuyant uniquement sur le terme
de vraisemblance (approche objective).
Cas discret
Cas continu
! = [a, b]
" = {!1 , K , ! n }
P(! i ) = 1 / n
P(" ) = 1 / (b ! a )
‘’propre’’
# = [" !,+!]
P(! ) = 1 / c
‘’impropre’’
L’a priori non-informatif est parfois aussi appelé a priori de référence (voir plus
loin, évaluation de modèle)
ATTENTION: un a priori informatif est parfois nécessaire, lorsque les données ne suffisent pas
pour estimer les paramètres du modèles (cf. exemple en Neuroimagerie)
EXEMPLES D’INFERENCE BAYESIENNE
Exemples d’inférences Bayésienne
- Ayant défini un a priori, le théorème de Bayes nous permet de combiner cette
information avec des observations afin de calculer la distribution a posteriori des
paramètres ou prédictions.
- L’inférence Bayésienne permet d’obtenir une information complète sur les quantités à
estimer: leur entière distribution de probabilité.
- Toutefois, il nous faudra le plus souvent résumer/interpréter cette information,
notamment pour permettre un choix ou une réponse quantitative. Typiquement et de
manière analogue à l’approche classique: une estimation ponctuelle, d’un intervalle ou
le test d’une hypothèse.
Exemples d’inférences Bayésienne
Estimation ponctuelle ^θ
« Comment résumer le résultat par une valeur statistique a posteriori ? »
moyenne
- Estimateur ponctuel de variance a posteriori minimale
- Sensible aux valeurs extrêmes
- Peu représentatif si distribution multimodale
médiane
- Insensible aux valeurs extrêmes
- Identique à la moyenne si la distribution est symétrique
- Sensible aux valeurs extrêmes
- Peu représentatif si distribution multimodale
mode
- Facile à calculer
- Equivalent au maximum de vraisemblance lors de l’utilisation
d’un a priori uniforme
- Reflète seulement la valeur la plus probable
- Aussi appelé Maximum A posteriori (MAP)
Exemples d’inférences Bayésienne
Estimation d’intervalle C
« Intervalle C de confiance Bayésien »
Définition fréquentiste
Si on recalculait C pour un grand nombre de jeux de données obtenus de manière
indépendante et selon le même protocole expérimental, (1-α).100% d’entre eux contiendrait
la valeur de θ.
Définition Bayésienne
La probabilité que la valeur θ appartienne à l’intervalle C, étant donné les observations Y, est
supérieure ou égale à (1-α).
1 # % " P(C Y )= ! P($ Y )d$
C
Exemples d’inférences Bayésienne
Test d’hypothèse
Définition fréquentiste
- H0 versus H1
- p = Probabilité que la statistique de test T(Y) soit
plus extrême (vers H1) que T(Y|θ,H0)
Définition Bayésienne
- Autant d’hypothèses concurrentes que de modèles
possibles, notés M1, M2, …, Mk
- Pour chaque hypothèse, on peut calculer
- Ne permet pas d’accepter H0
- La valeur p ne peut pas être interprétée comme un
degré de significativité
P(Y M i )= ! P(Y " , M i )P(" )d"
EVALUATION DE MODELE
Evaluation de modéle
Sélection/comparaison de modèles
Bayes Factor (BF): comparaison de deux modèles/hypothèses M1 et M2
P(M 1 Y ) P(M 2 Y ) P(Y M 1 )
BF =
=
P(M 1 ) P(M 2 )
P(Y M 2 )
Si les modèles sont a priori équiprobables
alors
BF =
P(M 1 ) = P(M 2 )
P(M 1 Y )
P(M 2 Y )
y = f(x)
Principe de parsimonie
évidence du modèle p(Y|M)
Evaluation de modéle
trop simple
‘juste bien’
trop complexe
Espace des données
x
Bayesian Information Criterion (BIC)
y=f(x)
' sup P(Y ) , M 1 )$
(BIC = !2 log %
" ! (n 2 ! n1)log N
&% sup P(Y ) , M 2 )#"
Akaike Information Criterion (AIC)
n1: # paramètres du modèle M1
n2: # paramètres du modèle M2
N: taille de l’échantillon
' sup P(Y ) , M 1 )$
(AIC = !2 log %
" ! 2(n 2 ! n1)
&% sup P(Y ) , M 2 )#"
Evaluation de modéle
Moyenne de modèles
Plutôt que d’estimer θ à partir d’une seule hypothèse, il se peut que plusieurs hypothèses
conduisent à différentes solution tout aussi plausibles. Alors il peut être intéressant de
moyenner sur plusieurs modèles.
P(" Y )= ! P(" M i , Y )P(M i Y )
i
Evaluation de modéle
Modèles hiérarchiques
Représentation sous la forme de graphe (Réseau Bayésien)
APPLICATION EN NEUROIMAGRIE
Application en neuroimagerie
Segmentation des images d’IRM anatomiques
Histogramme
des données
Vraisemblance: l’intensité dans chaque voxel de l’image est modélisé par un mélange de
lois normales. Chaque loi normale correspond à un type de tissu: matière grise (MG),
matière blanche (MB), liquide céphalo-rachidien (LCR)
A priori: Une distribution a priori pour chaque type de tissu a été obtenue à partir de la
segmentation manuelle de 150 images de sujets différents.
MG
MB
LCR
Pour chaque nouveau sujet, on obtient une carte/image de probabilité a
posteriori d’appartenance à chaque type de tissu.
CONCLUSION
Conclusion
Résumé:
- décision en termes probabilistes
- choix conditionnels (éventuellement par rapport à des covariables ou paramètres
connus x)
Inconvénients:
- approche subjective
- nécessité de définir une distribution a priori
- calculs couteux en mémoire et en temps
(approximations asymptotiques, méthodes d’échantillonnage, algorithme EM, approches
variationelles)
Avantages:
- peut poser toutes les questions
- interprétations plus intuitives
- permet d’accepter l’hypothèse nulle
(freq: évaluation rétrospective de la procédure utilisée pour estimer θ, étant donné
p(y|θ,H0))
- permet l’application de modèles de plus en plus complexes
Conclusion
Références
Numéro spécial, modèles probabilistes
en sciences cognitives (2006)
Téléchargement