Le Modèle Statistique
Mark Asch
Janvier 2012
Module TADE - EDSS, UPJV 2011-12
Résumé
Le modèle statistique est une structure formelle qui est la base de toute analyse statistique de données.
Un modèle statistique est composé de données, hypothèses et vérifications.
1 Les données
1.1 La collection de données
un échantillon représentatif
connaissance des caractéristiques
confiance dans l’identification
taille suffisamment grande
méthodes de sélection d’échantillon
– systématique
– random
– stratifiée
1.2 Types de données
variable de réponse : la variable sous étude
variable supplémentaire/explicative : afin de mieux comprendre la variation dans la variable observée
facteur : variable supplémentaire qui est catégorique
variables d’échelle : discrètes ou continues
variables catégoriques : ordonnées (bon, moyen, mauvais) ou nominales (mâle, femelle)
2 L’expérimentateur
2.1 Les composants d’un modèle
les buts de l’investigation : hypothèses
la méthode de sélection de l’échantillon : lois
la méthode d’allocation de traitements : facteurs
le plan d’expérience utilisé
2.2 Hypothèses statistiques
exemple de sondage : 3 questions possibles - (i) le parti a-t-il maintenu son niveau de soutien gagné
lors des élections précédantes ? (ii) le soutien est-il en hausse depuis les dernières élections ? (iii)
quel est le niveau actuel de soutien pour le parti ?
1
3 COMPARAISON : MODÈLE - DONNÉES 2
1. valeur de p? tester l’hypothèse que p=15.
2. p>15 ?
3. pas de valeur hypothétique de p– c’est un problème d’estimation
stratégie unifiée : tout modèle statistique comprendra une seule valeur de p
2.3 Hypothèses sur les lois
il y a variation inexpliquée dans tout ensemble d’observations
il faut caractériser cette variation par une loi (souvent Gaussienne...)
2.4 Structure du plan
la variation observée peut être expliquée par des facteurs identifiés et non identifiés
3 Comparaison : modèle - données
approches statistiques pour la comparaison d’un modèle statistique avec les données d’une expé-
rience
utilisation des statistiques de déduction (inférence)
3.1 Signification
exemple de niveau de glucose de coureurs avant et après la course
sujet avant après différence
1 67 100 33
2 46 73 27
3 67 89 22
4 66 95 29
5 70 76 6
6 60 108 48
7 72 77 5
8 76 88 12
9 72 104 32
10 53 108 55
11 66 84 18
TABLE 1 – Niveaux de glucose avant et après une course
revendication : le niveau a augmenté
clairement, les données soutiennent la revendication avec 11 hausses et 0 baisses - est-ce que c’est
suffisant ? aurait-t-il pu se produire au hasard ? (comme 11 lancers d’une pièce qui donnent tous pile)
si 11 hausses suffisent pour rejeter la revendication que les hausses et baisses sont également pro-
bable, qu’en est-il pour 9 hausses, 8 hausses, etc. ?
lorsque le surplus de nombre de hausses diminue, il est de plus en plus possible que la différence est
due au hasard plutôt qu’un processus physiologique
l’approche de signification rend cette décision objective en faisant
un classement d’issues possibles afin de donner une acceptation décroissante que le hasard fournit
l’explication
un point dans le classement, au delà duquel la chance est rejetée comme explication acceptable
3 COMPARAISON : MODÈLE - DONNÉES 3
3.2 Approche Bayesienne
basé sur le classement de différents modèles
les données sont considérées comme le composant fixe, et les modèles possibles sont comparés afin
d’évaluer quel modèle est le plus adapté aux données
3.3 Approche de vraisemblance
approche de signification n’a pas de mécanisme formelle pour utiliser de l’information concernant
des hypothèses alternatives possibles
on cherche un classement d’issues possibles qui donne du soutien décroissant pour l’hypothèse relatif
à l’hypothèse alternative - ceci devrait donner plus de chance de déceler que l’alternative est juste
une statistique, le rapport de vraisemblance, est utilisée afin de classer les issues possibles qu’ont
des valeurs de plus en plus grandes lorsqu’elles deviennent plus vraisemblable sous l’alternative par
rapport à l’hypothèse nulle
3.4 Mesurer l’accord entre modèle et données
étapes finales dans l’application de la statistique inférentielle sont
la mesure de la proximité du modèle et données
la traduction de cette mesure en quelque chose de sensé pour les investigateurs
3.5 Exemple de Poissons - marquage écologique
écologistes veulent connaître la taille d’une population dans une région donnée
méthode d’estimation est la capture-recapture : on pêche de la région, tous les poissons de l’espèce
sont marqués et retournés à l’eau, on repêche, on note le nombre de poissons marqués et non marqués
par exemple : soit f1=1200 (tous marqués et retournés à l’eau), f2=1000 dont m=40 sont marqués
Trois questions :
Quel est le nombre de poissons dans le lac ?
Est-ce que 40 000 est une estimation raisonnable du nombre de poissons dans le lac ?
Quelles sont de limites supérieures et inférieures raisonnables de la taille de population dans le
lac ?
Formulation du modèle statistique : (les 2 premiers composants)
1. La question posée par l’investigateur : la taille Nde la population.
2. Variables, méthode d’échantillonage, hypothèse de loi : la variable est catégorique “marqué”
ou “non marqué” ; la nature binaire établit la structure de distribution (deux classes ayant deux
fréquences π1et π2inconnues) ; échantillonage aléatoire est supposé (toute collection de 1000
poissons a les mêmes chances d’être choisie à la 2ème pêche) - en pratique, les gros poissons
sont plus faciles à pêcher que les petits...
Données : l’échantillon qui fournit les données comprend 1000 poissons et la réponse est mesurée
sur chaque individu, marqué ou non marquée - donc la variable de réponse est catégorique avec 2
catégories possibles.
Statistique : le choix logique est le nombre de poissons marqués
Information dérivée : le modèle et la statistique sont un choix standard (voir Modèle de Population à
Deux États) ; il faut des hypothèses sur la valeur de N; nous pouvons faire une supposition éclairée
basée sur le fait que
la proportion de poissons marqués dans f2est p2=40/1000 ; et
la proportion de poissons marqués dans le lac est π1=1200/N
si la proportion de marqués dans l’échantillon égale la proportion de marqués dans le lac, alors
p2=π1et N=1200/0.04 =30000.
supposons 3 possibilités N=30000,N=35000 et N=40000 qui représente le meilleur, puis des
montants de moins en moins vraisemblables ; maintenant il y a deux façons de regarder les graphes
3 COMPARAISON : MODÈLE - DONNÉES 4
considérer chaque graphe séparément, et baser la conclusion sur les probabilités de différentes
issues possibles de 0 poissons marqués jusqu’à 1000 poissons marqués - c’est la stratégie de
signification
comparer les probabilités d’une issue de 40 poisons marqués sous les hypothèse de différentes
tailles de population - c’est la stratégie de vraisemblance
0 10 20 30 40 50 60 70
0.00 0.02 0.04 0.06
x
p30
0 10 20 30 40 50 60 70
0.00 0.02 0.04 0.06
x
p35
0 10 20 30 40 50 60 70
0.00 0.02 0.04 0.06
x
p40
FIGURE 3.1 – Distributions de probabilité sous trois modèles.
3.5.1 Approche de Signification
pour un modèle avec une valeur donnée de la population N,il doit avoir un classement d’issues
possibles selon le consistance avec le modèle - on utilise les probabilités associées
un changement de N, change le classement (voir les 3 graphes)
à chaque position dans le classement, une valeur-p ou signification est affectée
la valeur-pest la probabilité d’être au point observé dans le classement ou d’être plus extrême ;
0p1.
l’interprétaion standard est :
si p0.05 les données sont consistantes avec le modèle proposé et l’hypothèse associée est rai-
sonnable ;
si p<0.05 il y a des indications (preuves) contre le modèle présumé ;
si p<0.01 il y a fortes indications (preuves) contre le modèle présumé ;
un ensemble de valeurs du paramètre qui ont une valeur-psupérieur au niveau αdonne un intervalle
de confiance à 100(1α)- on peut aussi tracer pen fonction de Net relever l’intervalle sur le
graphe...
4 PROBABILITÉS ET MODÈLES STATISTIQUES 5
questions et réponses :
Quel est le nombre le plus probable de poissons dans le lac ? La valeur N=30000 correspond à
p=1.
Est-ce que N=40000 est une estimation raisonnable ? Oui, parce que p=0.06.
Quelles sont les limites sur le nombre ? L’intervalle de confiance à 95% donne 22000 N41000.
3.5.2 Approche de Vraisemblance
le point faible de l’approche signification est l’incapacité de fournir une statistique sur laquelle le
classement de données peut être basé
l’approche de vraisemblance fournit une base objective pour la sélection de la statistique en éta-
blissant la vraisemblance sous chaque modèle est en identifiant le modèle le plus vraisemblable :
maximum de vraisemblance
le rapport de vraisemblance LR(N) = vraisemblancesousN
maximumdevraisemblance
en traçant la vraisemblance en fonction de N,nous obtenons les résultats suivants
N30 000 35 000 40 000
LR(N)1.0 0.6 0.2
c’est à dire qu’un résultat de 40 poissons marqués dans un échantillon de 1 000 est 5 fois plus
probable sous un modèle qui suppose N=30000 que sous N=40000.
4 Probabilités et Modèles Statistiques
4.1 Lois d’échantillonage
Lecture conseillée : Chapitre 6 de P&S.
lois d’échantillonage : dépendent de la variation dans la population ET la variation dans l’échan-
tillonnage
lois d’échantillonage d’une statistique
Une particularité des études scientifiques dans lesquelles les processus des statistiques de déduction sont
utilisées, est l’existence d’une variabilité d’échantillonage ou de hasard. Ce terme prend en compte le fait
que l’échantillonnage répétitif d’une population ou d’un processus, mène à des échantillons de composi-
tions différentes. Dans toutes les expériences scientifiques, la variabilité d’échantillonage aura tendance
à camoufler les caractéristiques de la population ou du processus sous étude. Une tâche essentielle de la
statistique inférentielle est alors d’établir si un écart entre le modèle et les données pourrait être expliqué
comme une variabilité due à l’échantillonnage ou comme un véritable écart... Et, plus généralement, de
quantifier l’incertitude que la variabilité d’échantillonage introduit. Voici les étapes à suivre pour ce faire :
1. Définir une loi de fréquence ou une loi de probabilité.
2. Définir une loi d’échantillonage et une loi d’échantillonage de l’échantillon.
3. Construire une loi d’échantillonage de la statistique qui décrit le lien entre le résultat statistique
formel dans l’analyse et l’interprétation scientifique de ce résultat.
4.2 Probabilités et variables aléatoires
Dans le langage de la théorie de probabilités :
une statistique est une variable aléatoire
une distribution/loi d’échantillonage est une loi de probabilité
4.2.1 Lois de probabilités jointes
Soit x1,x2,...,xnun ensemble de valeurs prises par des variables aléatoires X1,X2,..., Xn, alors la distri-
bution de probabilité jointe est
ΠS(x1,x2,...,xn) = Pr(X1x1et...etXnxn)
1 / 10 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !