3 COMPARAISON : MODÈLE - DONNÉES 3
3.2 Approche Bayesienne
– basé sur le classement de différents modèles
– les données sont considérées comme le composant fixe, et les modèles possibles sont comparés afin
d’évaluer quel modèle est le plus adapté aux données
3.3 Approche de vraisemblance
– approche de signification n’a pas de mécanisme formelle pour utiliser de l’information concernant
des hypothèses alternatives possibles
– on cherche un classement d’issues possibles qui donne du soutien décroissant pour l’hypothèse relatif
à l’hypothèse alternative - ceci devrait donner plus de chance de déceler que l’alternative est juste
– une statistique, le rapport de vraisemblance, est utilisée afin de classer les issues possibles qu’ont
des valeurs de plus en plus grandes lorsqu’elles deviennent plus vraisemblable sous l’alternative par
rapport à l’hypothèse nulle
3.4 Mesurer l’accord entre modèle et données
– étapes finales dans l’application de la statistique inférentielle sont
– la mesure de la proximité du modèle et données
– la traduction de cette mesure en quelque chose de sensé pour les investigateurs
3.5 Exemple de Poissons - marquage écologique
– écologistes veulent connaître la taille d’une population dans une région donnée
– méthode d’estimation est la capture-recapture : on pêche de la région, tous les poissons de l’espèce
sont marqués et retournés à l’eau, on repêche, on note le nombre de poissons marqués et non marqués
– par exemple : soit f1=1200 (tous marqués et retournés à l’eau), f2=1000 dont m=40 sont marqués
– Trois questions :
– Quel est le nombre de poissons dans le lac ?
– Est-ce que 40 000 est une estimation raisonnable du nombre de poissons dans le lac ?
– Quelles sont de limites supérieures et inférieures raisonnables de la taille de population dans le
lac ?
– Formulation du modèle statistique : (les 2 premiers composants)
1. La question posée par l’investigateur : la taille Nde la population.
2. Variables, méthode d’échantillonage, hypothèse de loi : la variable est catégorique “marqué”
ou “non marqué” ; la nature binaire établit la structure de distribution (deux classes ayant deux
fréquences π1et π2inconnues) ; échantillonage aléatoire est supposé (toute collection de 1000
poissons a les mêmes chances d’être choisie à la 2ème pêche) - en pratique, les gros poissons
sont plus faciles à pêcher que les petits...
– Données : l’échantillon qui fournit les données comprend 1000 poissons et la réponse est mesurée
sur chaque individu, marqué ou non marquée - donc la variable de réponse est catégorique avec 2
catégories possibles.
– Statistique : le choix logique est le nombre de poissons marqués
– Information dérivée : le modèle et la statistique sont un choix standard (voir Modèle de Population à
Deux États) ; il faut des hypothèses sur la valeur de N; nous pouvons faire une supposition éclairée
basée sur le fait que
– la proportion de poissons marqués dans f2est p2=40/1000 ; et
– la proportion de poissons marqués dans le lac est π1=1200/N
– si la proportion de marqués dans l’échantillon égale la proportion de marqués dans le lac, alors
p2=π1et N=1200/0.04 =30000.
– supposons 3 possibilités N=30000,N=35000 et N=40000 qui représente le meilleur, puis des
montants de moins en moins vraisemblables ; maintenant il y a deux façons de regarder les graphes