Cours 9 Autres types de Statistiques. Article 4

publicité
Cours 9
Autres types de
Statistiques. Article 4
Plan


D’autres méthodes statistiques
Discussion article IV
BIO 3500 – Hiver 2017
13 mars
Dans ce cours
Autres types de statistiques

Statistiques inférentielles
Basées sur le test d’hypothèse formel
Construction d’une distribution statistique à partir de
l’hypothèse nulle
 Déterminer la probabilité d’observer l’échantillon sous
cette distribution
 Décision statistique


Dans ce cours

Autres méthodes statistiques
Statistiques inférentielles

Que fait-on si on ne connait pas la distribution
statistique?
 Lorsque les modèles sont très complexes?

Statistiques inférentielles basées sur les permutations
/ modèles neutres, on crée la distribution statistique à
partir des données
Méthodes bayésiennes
Comparaison de modèles


Il y en a d’autres!

1
Statistiques inférentielles basées sur les
modèles neutres

Ex: Est-ce que les dauphins sont plus ou moins
phylogénétiquement près qu’attendu dans le Mékong?
Statistiques inférentielles basées sur les
modèles neutres

Espèces présentes dans le Mékong
Ex: Est-ce que les dauphins sont plus ou moins
phylogénétiquement près qu’attendu dans le Mékong?
n=3
Espèces présentes dans la région
1- Tire 3 espèces au hasard dans les 7 espèces
présentes dans la région et calcule la distance
phylogénétique
2- Répète (p.ex.) 100 000 fois
Créer la distribution des distances
possibles compte tenu des espèces
présentes
3- Mesure la distance phylo- de nos 3 espèces et
compare aux tirages aléatoires
n.d.l.r. cet exemple est fictif
Statistiques inférentielles basées sur les
modèles neutres

Ex: Est-ce que les dauphins sont plus ou moins
phylogénétiquement près qu’attendu dans le Mékong?
n=3
Région 1 vs
Région 2
À votre avis, même réponse?
Théorème de Bayes
Statistiques inférentielles basées sur les
modèles neutres

Ex: Est-ce que les dauphins sont plus ou moins
phylogénétiquement près qu’attendu dans le Mékong?
n=3
Région 1 vs
Région 2
À votre avis, même réponse? Non
Théorème de Bayes
P(A|B) = probabilité de A sachant B
P(A|B) = probabilité de A sachant B
P(B|A) = probabilité de B sachant A
P(A) = probabilité de A
P(B) = probabilité de B
P(B|A) = probabilité de B sachant A
P(A) = probabilité de A
P(B) = probabilité de B
Rev. Thomas Bayes (1701–1761)
1 article scientifique dans sa vie
P(B|A’) = probabilité de B sachant A’ – où A’ est une alternative à A
P(A’) = probabilité de A ’ – où A’ est une alternative à A
2
Théorème de Bayes
Exemple (lâchement copié de Wikipedia):
Imaginons deux urnes remplies de boules. La première
contient dix (10) boules noires et trente (30) blanches ; la
seconde en a vingt (20) de chaque. On tire sans préférence
particulière une des urnes au hasard et dans cette urne, on
tire une boule au hasard. La boule est blanche. Quelle est la
probabilité qu'on ait tiré cette boule dans la première urne
sachant qu'elle est blanche ?
Théorème de Bayes
Avant de savoir que l’on a tiré une boule blanche: “On tire
sans préférence particulière une des urnes… “
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
P(Urne 1) = ?
P(Urne 2) = ?
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
Théorème de Bayes
Théorème de Bayes
Avant de savoir que l’on a tiré une boule blanche: “On tire
sans préférence particulière une des urnes… “
La première contient dix (10) boules noires et trente (30)
blanches ; la seconde en a vingt (20) de chaque.
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
P(Urne 1) = P(Urne 2) = 50%
P(Urne 1) = P(Urne 2) = 50%
P(Blanche | Urne 1) = ?
P(Blanche | Urne 2) = ?
Théorème de Bayes
La première contient dix (10) boules noires et trente (30)
blanches ; la seconde en a vingt (20) de chaque.
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
Théorème de Bayes
H1: on a tiré la boule dans l’urne 1
H2: on a tiré la boule dans l’urne 2
P(Urne 1) = P(Urne 2) = 50%
P(Blanche | Urne 1) = 30 blanches /40 boules = 75%
P(Blanche | Urne 2) = 20 blanches / 40 boules = 50%
P(Urne 1) = P(Urne 2) = 50%
P(Blanche | Urne 1) = 30 blanches /40 boules = 75%
P(Blanche | Urne 2) = 20 blanches / 40 boules = 50%
P(Urne 1 | Blanche) =
P(Urne 1 | Blanche) =
P(Blanche | Urne 1) * P(Urne 1)
P(Blanche | Urne 1) * P(Urne 1) + P(Blanche | Urne 2) * P(Urne 2)
75% * 50%
= 60%
75%*50% + 50%*50%
3
Théorème de Bayes
Lorsqu’utilisé pour tester des hypothèses, la forme de la
distribution et la probabilité sont estimées en même temps
(stats fréquentistes, la distribution est construite avant)
La probabilité part d’une « croyance » de ce qui devrait être,
qui, par la suite, est modifiée par l’observation
Théorème de Bayes
Ex: Le soleil va-t-il se lever demain?
1
Certitude logique que l’évènement se produira
p=0.9999?
Probabilité
bayésienne
*On quantifie l’apprentissage
0
Certitude logique que l’évènement ne se produira pas
Théorème de Bayes
Théorème de Bayes
Ex: Le soleil va-t-il se lever demain?
Ex: Le soleil va-t-il se lever demain?
1. Pas de surprise: Le soleil se lève, nous n’avons presque rien
appris de nouveau
2. Surprise! Le soleil ne se lève pas, nous avons appris
beaucoup
1. Pas de surprise: Le soleil se lève, nous n’avons presque rien
appris de nouveau : I = -ln(0.9999) = 0.00001
Probabilité que le soleil se lève : 0.9999
Probabilité que le soleil ne se lève pas : 1-0.9999=0.0001
Fonction de surprise / information: I = ln (1/p) = -ln(p)
Théorème de Bayes
On modifie ensuite la probabilité que l’on attribuait initialement
en fonction de la nouvelle information
1. Pas de surprise: Le soleil se lève, nous n’avons presque rien
appris de nouveau : I = -ln(0.9999) = 0.00001
Nouvelle probabilité: p + f(I) > 0.9999
2. Surprise! Le soleil ne se lève pas, nous avons appris
beaucoup: I = -ln(0.0001) = 11.51
Nouvelle probabilité: p + f(I) << 0.9999
2. Surprise! Le soleil ne se lève pas, nous avons appris
beaucoup: I = -ln(0.0001) = 11.51
Probabilité que le soleil se lève : 0.9999
Probabilité que le soleil ne se lève pas : 1-0.9999=0.0001
Fonction de surprise / information: I = ln (1/p) = -ln(p)
Théorème de Bayes
Le problème de Monty Hall: Il y a 3 portes, derrière l’une, il y a
une auto, derrière les deux autres une chèvre. Vous gagnez
l’auto si vous la découvrez. Vous choisissez une porte (la porte
1), ensuite, quelqu’un sachant ou se trouve l’auto (p.ex., Bob
Barker) ouvre une autre porte (porte 3) où se trouve une chèvre.
Vous avez ensuite l’occasion de changer de porte, le faites vous
et pourquoi?
Votre choix initial
4
Théorème de Bayes
Le problème de Monty Hall: Il y a 3 portes, derrière l’une, il y a
une auto, derrière les deux autres une chèvre. Vous gagnez
l’auto si vous la découvrez. Vous choisissez une porte (la porte
1), ensuite, quelqu’un sachant ou se trouve l’auto (p.ex., Bob
Barker) ouvre une autre porte (porte 3) où se trouve une chèvre.
Vous avez ensuite l’occasion de changer de porte, le faites vous
et pourquoi?
Théorème de Bayes
P(H3 | C1, X1) = ½
P(H3 | C2, X1) = 1
P(H3 | C3, X1) = 0
P(C2 | H3, X1)
P(H3 | C1, X1) = ½ : probabilité que Bob Barker
choisisse la porte 3, si l’auto est derrière la 1 et que
vous avez choisi la porte 1
P(H3 | C2, X1) = 1
P(H3 | C3, X1) = 0
Sélection de modèle
Akaike information criterion (AIC)
Bayesian information criterion (BIC)
Des mesures de la qualité relative de modèles compte tenu des
données.
On pénalise les données pour leur complexité (parsimonie)
On n’utilise pas de distributions statistiques!
Plus la valeur de AIC est base, meilleur est le modèle
relativement aux autres
Comment juger les méthodes statistiques
Par la théorie: preuve mathématique
Simulation de données
Sélection de modèle
Ex: Est-ce que la compétition interspécifique peut être prédite
par l’espèce des voisins?
Modèle 1: Croissance = taille – espèce * taille des compétiteurs
Modèle 2: Croissance = taille – taille des compétiteurs
Le modèle 1 contient plus de paramètres que le modèle 2 pour
tenir compte de l’effet des espèces de compétiteurs. Il devra
donc être plus performant que le modèle 2 pour être choisi. Si
les deux expliquent de façon équivalente, le modèle 2 sera
choisi.
Comment juger les méthodes statistiques
Simulation de données : ex, on décrit une méthode où l’on veut
découvrir s’il existe un lien entre la biodiversité et les
conditions environnementales
1-Simule des données
environnementales
2a- Données générées où
biodiversité <- environnement
2b- Données générées où
biodiversité ≠ environnement
3-Applique la méthode pour détecter le
lien entre biodiversité et l’environnement
4- Répète 100 000 ou 1 000 000 fois
5-Quantifie l’efficacité (puissance/erreur)
5
Comment juger les méthodes statistiques
1-Simule des données
environnementales
2a- Données générées où
biodiversité <- environnement
Article 4
2b- Données générées où
biodiversité ≠ environnement
3-Applique la méthode pour détecter le lien entre biodiversité
et l’environnement: effet détecté ou non
Réalité (connu! On a simulé les données)
Décision
Ho vrai
Rejet de Ho
Erreur de première
espèce (type I)
P=α
Non-rejet de Ho
Décision correcte
P=1- α
Ho fausse
Décision correcte
Puissance
statistique
Erreur de seconde
espèce (type II)
Valeur reproductive

En équipe 20-30 min
VR = Reproduction actuelle + valeur reproductive
résiduelle
Valeur
reproductive
residuelle
Effort de
reproduction
âge
Identifiez:
Problématique

Justification

Méthodes

Principaux résultats et conclusions
Particulièrement, quelles sont les hypothèses, les
variables et les résultats du test de t
Des commentaires pour chaque section

6
Téléchargement