Le Modèle Statistique

publicité
Le Modèle Statistique
Mark Asch
Janvier 2012
Module TADE - EDSS, UPJV 2011-12
Résumé
Le modèle statistique est une structure formelle qui est la base de toute analyse statistique de données.
Un modèle statistique est composé de données, hypothèses et vérifications.
1
Les données
1.1
La collection de données
– un échantillon représentatif
– connaissance des caractéristiques
– confiance dans l’identification
– taille suffisamment grande
– méthodes de sélection d’échantillon
– systématique
– random
– stratifiée
1.2
–
–
–
–
–
2
variable de réponse : la variable sous étude
variable supplémentaire/explicative : afin de mieux comprendre la variation dans la variable observée
facteur : variable supplémentaire qui est catégorique
variables d’échelle : discrètes ou continues
variables catégoriques : ordonnées (bon, moyen, mauvais) ou nominales (mâle, femelle)
L’expérimentateur
2.1
Les composants d’un modèle
–
–
–
–
2.2
Types de données
les buts de l’investigation : hypothèses
la méthode de sélection de l’échantillon : lois
la méthode d’allocation de traitements : facteurs
le plan d’expérience utilisé
Hypothèses statistiques
– exemple de sondage : 3 questions possibles - (i) le parti a-t-il maintenu son niveau de soutien gagné
lors des élections précédantes ? (ii) le soutien est-il en hausse depuis les dernières élections ? (iii)
quel est le niveau actuel de soutien pour le parti ?
1
3
COMPARAISON : MODÈLE - DONNÉES
2
1. valeur de p ? tester l’hypothèse que p = 15.
2. p > 15 ?
3. pas de valeur hypothétique de p – c’est un problème d’estimation
– stratégie unifiée : tout modèle statistique comprendra une seule valeur de p
2.3
Hypothèses sur les lois
– il y a variation inexpliquée dans tout ensemble d’observations
– il faut caractériser cette variation par une loi (souvent Gaussienne...)
2.4
Structure du plan
– la variation observée peut être expliquée par des facteurs identifiés et non identifiés
3
Comparaison : modèle - données
– approches statistiques pour la comparaison d’un modèle statistique avec les données d’une expérience
– utilisation des statistiques de déduction (inférence)
3.1
Signification
– exemple de niveau de glucose de coureurs avant et après la course
sujet
1
2
3
4
5
6
7
8
9
10
11
avant
67
46
67
66
70
60
72
76
72
53
66
après
100
73
89
95
76
108
77
88
104
108
84
différence
33
27
22
29
6
48
5
12
32
55
18
TABLE 1 – Niveaux de glucose avant et après une course
– revendication : le niveau a augmenté
– clairement, les données soutiennent la revendication avec 11 hausses et 0 baisses - est-ce que c’est
suffisant ? aurait-t-il pu se produire au hasard ? (comme 11 lancers d’une pièce qui donnent tous pile)
– si 11 hausses suffisent pour rejeter la revendication que les hausses et baisses sont également probable, qu’en est-il pour 9 hausses, 8 hausses, etc. ?
– lorsque le surplus de nombre de hausses diminue, il est de plus en plus possible que la différence est
due au hasard plutôt qu’un processus physiologique
– l’approche de signification rend cette décision objective en faisant
– un classement d’issues possibles afin de donner une acceptation décroissante que le hasard fournit
l’explication
– un point dans le classement, au delà duquel la chance est rejetée comme explication acceptable
3
COMPARAISON : MODÈLE - DONNÉES
3.2
3
Approche Bayesienne
– basé sur le classement de différents modèles
– les données sont considérées comme le composant fixe, et les modèles possibles sont comparés afin
d’évaluer quel modèle est le plus adapté aux données
3.3
Approche de vraisemblance
– approche de signification n’a pas de mécanisme formelle pour utiliser de l’information concernant
des hypothèses alternatives possibles
– on cherche un classement d’issues possibles qui donne du soutien décroissant pour l’hypothèse relatif
à l’hypothèse alternative - ceci devrait donner plus de chance de déceler que l’alternative est juste
– une statistique, le rapport de vraisemblance, est utilisée afin de classer les issues possibles qu’ont
des valeurs de plus en plus grandes lorsqu’elles deviennent plus vraisemblable sous l’alternative par
rapport à l’hypothèse nulle
3.4
Mesurer l’accord entre modèle et données
– étapes finales dans l’application de la statistique inférentielle sont
– la mesure de la proximité du modèle et données
– la traduction de cette mesure en quelque chose de sensé pour les investigateurs
3.5
Exemple de Poissons - marquage écologique
– écologistes veulent connaître la taille d’une population dans une région donnée
– méthode d’estimation est la capture-recapture : on pêche de la région, tous les poissons de l’espèce
sont marqués et retournés à l’eau, on repêche, on note le nombre de poissons marqués et non marqués
– par exemple : soit f1 = 1200 (tous marqués et retournés à l’eau), f2 = 1000 dont m = 40 sont marqués
– Trois questions :
– Quel est le nombre de poissons dans le lac ?
– Est-ce que 40 000 est une estimation raisonnable du nombre de poissons dans le lac ?
– Quelles sont de limites supérieures et inférieures raisonnables de la taille de population dans le
lac ?
– Formulation du modèle statistique : (les 2 premiers composants)
1. La question posée par l’investigateur : la taille N de la population.
2. Variables, méthode d’échantillonage, hypothèse de loi : la variable est catégorique “marqué”
ou “non marqué” ; la nature binaire établit la structure de distribution (deux classes ayant deux
fréquences π1 et π2 inconnues) ; échantillonage aléatoire est supposé (toute collection de 1000
poissons a les mêmes chances d’être choisie à la 2ème pêche) - en pratique, les gros poissons
sont plus faciles à pêcher que les petits...
– Données : l’échantillon qui fournit les données comprend 1000 poissons et la réponse est mesurée
sur chaque individu, marqué ou non marquée - donc la variable de réponse est catégorique avec 2
catégories possibles.
– Statistique : le choix logique est le nombre de poissons marqués
– Information dérivée : le modèle et la statistique sont un choix standard (voir Modèle de Population à
Deux États) ; il faut des hypothèses sur la valeur de N ; nous pouvons faire une supposition éclairée
basée sur le fait que
– la proportion de poissons marqués dans f2 est p2 = 40/1000 ; et
– la proportion de poissons marqués dans le lac est π1 = 1200/N
– si la proportion de marqués dans l’échantillon égale la proportion de marqués dans le lac, alors
p2 = π1 et N = 1200/0.04 = 30000.
– supposons 3 possibilités N = 30000, N = 35000 et N = 40000 qui représente le meilleur, puis des
montants de moins en moins vraisemblables ; maintenant il y a deux façons de regarder les graphes
3
COMPARAISON : MODÈLE - DONNÉES
4
0.04
0.00
0.02
p30
0.06
– considérer chaque graphe séparément, et baser la conclusion sur les probabilités de différentes
issues possibles de 0 poissons marqués jusqu’à 1000 poissons marqués - c’est la stratégie de
signification
– comparer les probabilités d’une issue de 40 poisons marqués sous les hypothèse de différentes
tailles de population - c’est la stratégie de vraisemblance
0
10
20
30
40
50
60
70
40
50
60
70
40
50
60
70
0.04
0.00
0.02
p35
0.06
x
0
10
20
30
0.04
0.00
0.02
p40
0.06
x
0
10
20
30
x
F IGURE 3.1 – Distributions de probabilité sous trois modèles.
3.5.1
Approche de Signification
– pour un modèle avec une valeur donnée de la population N, il doit avoir un classement d’issues
possibles selon le consistance avec le modèle - on utilise les probabilités associées
– un changement de N, change le classement (voir les 3 graphes)
– à chaque position dans le classement, une valeur-p ou signification est affectée
– la valeur-p est la probabilité d’être au point observé dans le classement ou d’être plus extrême ;
0 ≤ p ≤ 1.
– l’interprétaion standard est :
– si p ≥ 0.05 les données sont consistantes avec le modèle proposé et l’hypothèse associée est raisonnable ;
– si p < 0.05 il y a des indications (preuves) contre le modèle présumé ;
– si p < 0.01 il y a fortes indications (preuves) contre le modèle présumé ;
– un ensemble de valeurs du paramètre qui ont une valeur-p supérieur au niveau α donne un intervalle
de confiance à 100(1 − α) - on peut aussi tracer p en fonction de N et relever l’intervalle sur le
graphe...
4
PROBABILITÉS ET MODÈLES STATISTIQUES
5
– questions et réponses :
– Quel est le nombre le plus probable de poissons dans le lac ? La valeur N = 30000 correspond à
p = 1.
– Est-ce que N = 40000 est une estimation raisonnable ? Oui, parce que p = 0.06.
– Quelles sont les limites sur le nombre ? L’intervalle de confiance à 95% donne 22000 ≤ N ≤ 41000.
3.5.2
Approche de Vraisemblance
– le point faible de l’approche signification est l’incapacité de fournir une statistique sur laquelle le
classement de données peut être basé
– l’approche de vraisemblance fournit une base objective pour la sélection de la statistique en établissant la vraisemblance sous chaque modèle est en identifiant le modèle le plus vraisemblable :
maximum de vraisemblance
vraisemblance sous N
– le rapport de vraisemblance LR(N) = maximum
de vraisemblance
– en traçant la vraisemblance en fonction de N, nous obtenons les résultats suivants
N
30 000 35 000 40 000
LR(N)
1.0
0.6
0.2
– c’est à dire qu’un résultat de 40 poissons marqués dans un échantillon de 1 000 est 5 fois plus
probable sous un modèle qui suppose N = 30 000 que sous N = 40 000.
4
Probabilités et Modèles Statistiques
4.1
Lois d’échantillonage
Lecture conseillée : Chapitre 6 de P&S.
– lois d’échantillonage : dépendent de la variation dans la population ET la variation dans l’échantillonnage
– lois d’échantillonage d’une statistique
Une particularité des études scientifiques dans lesquelles les processus des statistiques de déduction sont
utilisées, est l’existence d’une variabilité d’échantillonage ou de hasard. Ce terme prend en compte le fait
que l’échantillonnage répétitif d’une population ou d’un processus, mène à des échantillons de compositions différentes. Dans toutes les expériences scientifiques, la variabilité d’échantillonage aura tendance
à camoufler les caractéristiques de la population ou du processus sous étude. Une tâche essentielle de la
statistique inférentielle est alors d’établir si un écart entre le modèle et les données pourrait être expliqué
comme une variabilité due à l’échantillonnage ou comme un véritable écart... Et, plus généralement, de
quantifier l’incertitude que la variabilité d’échantillonage introduit. Voici les étapes à suivre pour ce faire :
1. Définir une loi de fréquence ou une loi de probabilité.
2. Définir une loi d’échantillonage et une loi d’échantillonage de l’échantillon.
3. Construire une loi d’échantillonage de la statistique qui décrit le lien entre le résultat statistique
formel dans l’analyse et l’interprétation scientifique de ce résultat.
4.2
Probabilités et variables aléatoires
Dans le langage de la théorie de probabilités :
– une statistique est une variable aléatoire
– une distribution/loi d’échantillonage est une loi de probabilité
4.2.1
Lois de probabilités jointes
Soit x1 , x2 , ..., xn un ensemble de valeurs prises par des variables aléatoires X1 , X2 , ..., Xn , alors la distribution de probabilité jointe est
ΠS (x1 , x2 , ..., xn ) = Pr(X1 ≤ x1 et ... et Xn ≤ xn )
5
MODÈLES STATISTIQUES RÉPANDUS
6
et si X1 , X2 , ..., Xn sont v.a. continues, alors il existe une fonction unique πS qui vérifie
Z xn
ΠS (x1 , x2 , ..., xn ) =
...
Z x1
−∞
−∞
πS (X1 , ..., Xn )dX1 ...dXn .
La loi de probabilité conditionnelle : pour deux variables aléatoires X et Y
πX|Y =
5
πS (X,Y )
.
πY (Y = y)
Modèles Statistiques répandus
5.1
Modèle Binomial
5.1.1
Identification
–
–
–
–
5.1.2
expérience répétitive avec 2 issues possibles : succès-échec, oui-non, malade-sain, grand-petit
issues indépendantes d’une expérience à l’autre
probabilités constantes
échantillonage objective
Loi de probabilités
Loi très simple : p(E1 ) = π1, p(E2 ) = π2, et π1 + π2 = 1.
5.1.3
Applications
– le modèle le plus répandu... science, technologie, génétique, traitements
5.1.4
Ŕéduction de données
– nombre de succès (x) et nombre d’échecs (n − x) en n essais
5.1.5
Statistiques
Deux possibilités :
– nombre de succès, x, dans un nombre fixe, n, d’issues - loi Binomiale
n x
πst (x) =
π (1 − π)n−x , pour x = 0, 1, 2, ..., n
x
– nombre d’essais afin d’obtenir exactement x succès - loi Binomiale Négative
n−1 x
πst (n) =
π (1 − π)n−x , pour n = x, x + 1, x + 2, ...
x−1
5.2
Modèle à deux-états (hypergéométrique)
5.2.1
Identification
– population de N membres partitionnée en deux sous-populations
– un échantillon aléatoire est tiré
5.2.2
Loi de probabilités
Loi très simple : p(E1 ) = π1, p(E2 ) = π2, et π1 + π2 = 1.
5
MODÈLES STATISTIQUES RÉPANDUS
5.2.3
7
Applications
– estimations de π1 : dans des troupes d’animaux, forêts, le ombre d’individus atteint d’une maladie ;
– processus de fabrication en série : contrôle de qualité (bon-mauvais, fonctionnel-défaillant)
– estimation de la taille d’une population : voir poissons
5.2.4
Ŕéduction de données
On enregistre simplement le nombre d’individus d’échantillon dans chaque groupe, x1 et x2 où x1 + x2 =
n, la taille de l’échantillon.
5.2.5
Statistiques
– le nombre de membres d’échantillon du Groupe 1 (ou 2)
– loi d’échantillonage de la statistique est la distribution Hypergéométrique
N N 1
πst (x1 ) =
x1
2
n−x1
N
n
,
pour x1 = 0, 1, 2, ..., min(n, N1 )
où N1 et N2 sont les nombres de membres ans les deux sous-populations, N1 + N2 = N.
5.3
Modèle d’événements
5.3.1
Identification
– un processus qui génère des événements en temps ou en espace : clients arrivants, voitures passantes,
typo’s, desastres naturelles
– le mécanisme est supposé invariant en temps/espace et donc le taux de production est constant
– les événements sont indépendants
– échantillonage objective en temps/espace
5.3.2
Loi de probabilités
Deux lois possibles.
1. Loi de Poisson : pour les conditions ci-dessus
π(n) =
e−µ µ n
n!
pour n = 0, 1, 2, ...
où µest le nombre d’événements (espéré) par unité de temps. Cette loi définit la probabilité d’observer n issues d’un événement pendant une période de temps fixée.
2. Loi Exponentielle : La probabilité d’attendre une période t (ou traverser une distance) avant la prochaine issue est définie par
1 −t/µ
si t ≥ 0
µe
π(t) =
0
sinon.
où µ est le délai moyen entre les événements.
5.3.3
–
–
–
–
Applications
études de tables de fréquences
pour analyser l’indépendance d’événements : pannes, épidémies
la distance entre événements : durées de vie
approximation de la loi Binomiale pour grand n et petite π.
5
MODÈLES STATISTIQUES RÉPANDUS
5.3.4
8
Ŕéduction de données
Les données sont enregistrées comme le nombre d’issues en périodes égales de temps/espace (n1 , ..., nk )
ou comme les intervalles successifs entre les événements (t1 , ...,tk ).
5.3.5
Statistiques
1. Loi Gamma : si T est le délai pour l’occurrence du n-ème événement,
1
n n−1 e−µt si t > 0
(n−1)! µ t
πst (t) =
0
sinon.
2. Pour le nombre d’issues (n1 , ..., nk ), la loi varie avec les circonstances...
5.4
Modèle multinomial
5.4.1
Identification
– extension du modèle Binomial : plus de 2 catégories dans la réponse
– mêmes hypothèse que la loi Binomiale
5.4.2
Loi de probabilités
Simplement, π1 , ..., πk avec π1 + ... + πk = 1.
5.4.3
Applications
Souvent utilisé pour examiner des hypothèses concernant la structure des distributions de probabilité.
– table de fréquences pour l’incidence d’une maladie d’arbres en fonction de la saison : hypothèse est
π1 = π2 = π3 = π4 où f1 = 32, f2 = 27, f3 = 43, f4 = 43.
– les rapports entre réponses
5.4.4
Ŕéduction de données
Table de fréquences (contingence).
5.4.5
Statistiques
La probabilité d’obtenir exactement f1 membres d’échantillon dans le groupe 1, etc., dans un néchantillon est
i
n! h f1
f
π( f1 , ..., fk ) =
π1 ...πk k
f1 !... fk !
où ∑ π1 = 1 et ∑ fi = n.
5.5
Modèle de distribution normale
5.5.1
Identification
– la quantité sous observation peut prendre nombreuses valeurs (continue)
– l’issue est le résultat de contributions de multiples facteurs sans qu’aucun ait un effet prépondérant
– échantillonage aléatoire
5
MODÈLES STATISTIQUES RÉPANDUS
5.5.2
9
Loi de probabilités
1
2
f (x) = √
exp − 2 (x − µ) ,
2σ
2ππσ 2
1
−∞ < x < ∞,
où µ et σ sont des propriétés du processus expérimental particulier. Propriétés importantes :
– Pr(−σ < y − µ < σ ) = 0.68
– Pr(−2σ < y − µ < 2σ ) = 0.95
– Pr(−3σ < y − µ < 3σ ) = 0.997.
5.5.3
Applications
– approximation normale de la loi binomiale avec µ = nπ et σ 2 = nπ(1 − π).
– approximation de la distribution de fréquences
5.5.4
Statistiques
Il existe nombreuses statistiques pour des applications basées sur un échantillon supposé provenir d’un
modèle Gaussien. Nous supposons que les variables aléatoires indépendantes y1 , ..., yn (i.i.d) sont toutes
N (µ, σ 2 ) et représentent des réponses de n individus choisis au hasard d’une population.
2
1. La moyenne d’échantillon
√ : ȳ = (y1 + ... + yn )/n a une distribution d’échantillonage N (µ, σ /n) et
donc z = (ȳ − µ)/(σ / n) est N (0, 1).
√
2. La statistique-t : t = (ȳ − µ)/(s/ n) où s est l’écart-type empirique a la distribution-t
2
3. La statistique chi-deux : χ 2 = ∑ni=1 (yi −µ)
est de loi-χ 2
σ2
5.6
Modèle Logistique
5.6.1
Identification
Deux exemples de situations différentes.
1. Susceptibilité des mouches à une insecticide. La proportion de mouches mortes augmente avec
la concentration de l’ingrédient actif. Quel est le rapport entre la proportion espéré (P) et le niveau
d’actif (x) ? Les insectes ont des niveaux de susceptibilité (u) différents. La proposition est que les
insectes ont une fourchette continue résistante-susceptible et seulement celles au dessus d’un seuil
(uT ) sont tuées. De plus, lorsque la concentration x augmente, la proportion (P) ayant une susceptibilité au dessus du seuil augmente aussi. Nous avons une courbe logistique (en S) pour P(x) en
fonction de x. Il est intéressant de pouvoir décrire le rapport entre ces deux afin que
(a) l’on puisse déterminer la proportion (espérée) tuée par un niveau donné ;
(b) le niveau minimum afin de tuer une proportion donnée : LD50 - dose mortelle qui tue 50%.
2. Loyauté à un parti politique.
5.6.2
Modèles possibles
– probit - basé sur la loi normale lorsque la relation entre P(x) et u est supposée normale
– logistique - généralisation du modèle probit
5.6.3
Loi de probabilités
π(u) =
e(µ−α)/k
k(1 + e(µ−α)/k )2
5
MODÈLES STATISTIQUES RÉPANDUS
10
où α et k sont des paramètres pour une loi donnée, s’appelle la loi logistique. Si nous supposons que
µx = A + Bx
alors nous trouvons une relation entre la proportion et la dose seuil
P=
1
1 + e(uT −α)/k
appelée la transformation logit. L’espérance de la loi est α, et si α = A + Bx, la proportion de membres de
la population ayant valeurs supérieures à uT est relié à P(x) par
P(X) =
1
1 + e(uT −(A+Bx))/k
ou
log
−∞ < x < ∞
1 − P(x)
= Cx + D
P(x)
avec C = (uT − A)/k et D = −B/k.
5.6.4
Applications
– établir la valeur X qui donnerait une valeur spécifiée de P et en particulier le LD50 (pour P = 0.5)
– modèle généralisé avec plus que 2 régions et plusieurs valeurs seuil
Téléchargement