1
Cours 9
Autres types de
Statistiques. Article 4
BIO 3500 – Hiver 2017
13 mars
Plan
D’autres méthodes statistiques
Discussion article IV
Autres types de statistiques
Dans ce cours
Statistiques inférentielles
Basées sur le test d’hypothèse formel
Construction d’une distribution statistique à partir de
l’hypothèse nulle
Déterminer la probabilité d’observer l’échantillon sous
cette distribution
Décision statistique
Dans ce cours
Statistiques inférentielles
Que fait-on si on ne connait pas la distribution
statistique?
Lorsque les modèles sont très complexes?
Autres méthodes statistiques
Statistiques inférentielles basées sur les permutations
/ modèles neutres, on crée la distribution statistique à
partir des données
Méthodes bayésiennes
Comparaison de modèles
Il y en a d’autres!
2
Statistiques inférentielles basées sur les
modèles neutres
Ex: Est-ce que les dauphins sont plus ou moins
phylogénétiquement près qu’attendu dans le Mékong?
Espèces psentes dans le Mékong
n.d.l.r. cet exemple est fictif
Espèces psentes dans la région
Statistiques inférentielles basées sur les
modèles neutres
Ex: Est-ce que les dauphins sont plus ou moins
phylogénétiquement près qu’attendu dans le Mékong?
n=3
1- Tire 3 espèces au hasard dans les 7 espèces
présentes dans la région et calcule la distance
phylogénétique
2- Répète (p.ex.) 100 000 fois
Créer la distribution des distances
possibles compte tenu des espèces
présentes
3- Mesure la distance phylo- de nos 3 espèces et
compare aux tirages aléatoires
Statistiques inférentielles basées sur les
modèles neutres
Ex: Est-ce que les dauphins sont plus ou moins
phylogénétiquement près qu’attendu dans le Mékong?
n=3
Région 1 vs Région 2
À votre avis, même réponse?
Statistiques inférentielles basées sur les
modèles neutres
Ex: Est-ce que les dauphins sont plus ou moins
phylogénétiquement près qu’attendu dans le Mékong?
n=3
Région 1 vs Région 2
À votre avis, même réponse? Non
Théorème de Bayes
Rev. Thomas Bayes (1701–1761)
1 article scientifique dans sa vie
P(A|B) = probabilité de A sachant B
P(B|A) = probabilité de B sachant A
P(A) = probabilité de A
P(B) = probabilité de B
Théorème de Bayes
P(A|B) = probabilité de A sachant B
P(B|A) = probabilité de B sachant A
P(A) = probabilité de A
P(B) = probabilité de B
P(B|A’) = probabilité de B sachant A – où A est une alternative à A
P(A’) = probabilité de A – où A est une alternative à A
3
Théorème de Bayes
Exemple (lâchement copié de Wikipedia):
Imaginons deux urnes remplies de boules. La première
contient dix (10) boules noires et trente (30) blanches ; la
seconde en a vingt (20) de chaque. On tire sans préférence
particulière une des urnes au hasard et dans cette urne, on
tire une boule au hasard. La boule est blanche. Quelle est la
probabilité qu'on ait tiré cette boule dans la première urne
sachant qu'elle est blanche ?
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
Théorème de Bayes
Avant de savoir que l’on a tiré une boule blanche: “On tire
sans préférence particulière une des urnes… “
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
P(Urne 1) = ?
P(Urne 2) = ?
Théorème de Bayes
Avant de savoir que l’on a tiré une boule blanche: “On tire
sans préférence particulière une des urnes… “
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
P(Urne 1) = P(Urne 2) = 50%
Théorème de Bayes
La première contient dix (10) boules noires et trente (30)
blanches ; la seconde en a vingt (20) de chaque.
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
P(Urne 1) = P(Urne 2) = 50%
P(Blanche | Urne 1) = ?
P(Blanche | Urne 2) = ?
Théorème de Bayes
La première contient dix (10) boules noires et trente (30)
blanches ; la seconde en a vingt (20) de chaque.
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
P(Urne 1) = P(Urne 2) = 50%
P(Blanche | Urne 1) = 30 blanches /40 boules = 75%
P(Blanche | Urne 2) = 20 blanches / 40 boules = 50%
Théorème de Bayes
H1: on a tila boule dans l’urne 1
H2: on a tila boule dans l’urne 2
P(Urne 1) = P(Urne 2) = 50%
P(Blanche | Urne 1) = 30 blanches /40 boules = 75%
P(Blanche | Urne 2) = 20 blanches / 40 boules = 50%
P(Urne 1 | Blanche) = P(Blanche | Urne 1) * P(Urne 1)
P(Blanche | Urne 1) * P(Urne 1) + P(Blanche | Urne 2) * P(Urne 2)
P(Urne 1 | Blanche) = 75% * 50% = 60%
75%*50% + 50%*50%
4
Théorème de Bayes
Lorsqu’utilisé pour tester des hypothèses, la forme de la
distribution et la probabilité sont estimées en même temps
(stats fréquentistes, la distribution est construite avant)
La probabilité part d’une « croyance » de ce qui devrait être,
qui, par la suite, est modifiée par l’observation
*On quantifie l’apprentissage
Théorème de Bayes
Ex: Le soleil va-t-il se lever demain?
Certitude logique que l’évènement se produira
Certitude logique que l’évènement ne se produira pas
0
1
Probabili
bayésienne
p=0.9999?
Théorème de Bayes
Ex: Le soleil va-t-il se lever demain?
1. Pas de surprise: Le soleil se lève, nous n’avons presque rien
appris de nouveau
2. Surprise! Le soleil ne se lève pas, nous avons appris
beaucoup
Probabilité que le soleil se lève : 0.9999
Probabilité que le soleil ne se lève pas : 1-0.9999=0.0001
Fonction de surprise / information: I = ln (1/p) = -ln(p)
Théorème de Bayes
Ex: Le soleil va-t-il se lever demain?
1. Pas de surprise: Le soleil se lève, nous n’avons presque rien
appris de nouveau : I = -ln(0.9999) = 0.00001
2. Surprise! Le soleil ne se lève pas, nous avons appris
beaucoup: I = -ln(0.0001) = 11.51
Probabilité que le soleil se lève : 0.9999
Probabilité que le soleil ne se lève pas : 1-0.9999=0.0001
Fonction de surprise / information: I = ln (1/p) = -ln(p)
Théorème de Bayes
On modifie ensuite la probabilité que l’on attribuait initialement
en fonction de la nouvelle information
1. Pas de surprise: Le soleil se lève, nous n’avons presque rien
appris de nouveau : I = -ln(0.9999) = 0.00001
Nouvelle probabilité: p + f(I) > 0.9999
2. Surprise! Le soleil ne se lève pas, nous avons appris
beaucoup: I = -ln(0.0001) = 11.51
Nouvelle probabilité: p + f(I) << 0.9999
Théorème de Bayes
Le problème de Monty Hall: Il y a 3 portes, derrière l’une, il y a
une auto, derrière les deux autres une chèvre. Vous gagnez
l’auto si vous la découvrez. Vous choisissez une porte (la porte
1), ensuite, quelqu’un sachant ou se trouve l’auto (p.ex., Bob
Barker) ouvre une autre porte (porte 3) où se trouve une chèvre.
Vous avez ensuite l’occasion de changer de porte, le faites vous
et pourquoi?
Votre choix initial
5
Théorème de Bayes
Le problème de Monty Hall: Il y a 3 portes, derrière l’une, il y a
une auto, derrière les deux autres une chèvre. Vous gagnez
l’auto si vous la découvrez. Vous choisissez une porte (la porte
1), ensuite, quelqu’un sachant ou se trouve l’auto (p.ex., Bob
Barker) ouvre une autre porte (porte 3) où se trouve une chèvre.
Vous avez ensuite l’occasion de changer de porte, le faites vous
et pourquoi?
P(H3 | C1, X1) = ½ : probabilité que Bob Barker
choisisse la porte 3, si l’auto est derrière la 1 et que
vous avez choisi la porte 1
P(H3 | C2, X1) = 1
P(H3 | C3, X1) = 0
Théorème de Bayes
P(H3 | C1, X1) = ½
P(H3 | C2, X1) = 1
P(H3 | C3, X1) = 0
P(C2 | H3, X1)
Sélection de modèle
Akaike information criterion (AIC)
Bayesian information criterion (BIC)
Des mesures de la qualité relative de modèles compte tenu des
données.
On pénalise les données pour leur complexité (parsimonie)
On n’utilise pas de distributions statistiques!
Plus la valeur de AIC est base, meilleur est le modèle
relativement aux autres
Sélection de modèle
Ex: Est-ce que la compétition interspécifique peut être prédite
par l’espèce des voisins?
Modèle 1: Croissance = taille – espèce * taille des compétiteurs
Modèle 2: Croissance = taille – taille des compétiteurs
Le modèle 1 contient plus de paramètres que le modèle 2 pour
tenir compte de l’effet des espèces de compétiteurs. Il devra
donc être plus performant que le modèle 2 pour être choisi. Si
les deux expliquent de façon équivalente, le modèle 2 sera
choisi.
Comment juger les méthodes statistiques
Par la théorie: preuve mathématique
Simulation de données
Comment juger les méthodes statistiques
Simulation de données : ex, on décrit une méthode où l’on veut
découvrir s’il existe un lien entre la biodiversité et les
conditions environnementales
2a- Données générées où
biodiversité <- environnement
2b- Données générées
biodiversité ≠ environnement
1-Simule des données
environnementales
3-Applique la méthode pour détecter le
lien entre biodiversité et l’environnement
4- Répète 100 000 ou 1 000 000 fois
5-Quantifie l’efficacité (puissance/erreur)
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !