CM1b-2005 - Christophe Genolini

publicité
La licence commence ici…
Stat : pour quoi faire ?
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 1
Que fait-on en science ?
• On cherche des règles qui décrivent le monde
–
–
–
–
Galilée
Newton
Einstein
Archimède
• Mais les règles absolues sont rares
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 2
Que fait-on en science ?
• On cherche des règles qui décrivent le monde
–
–
–
–
Galilé : la terre tourne autour du soleil
Newton : les pommes tombent sur la terre (gravitation)
Einstein : tout est relatif
Archimède : un corps plongé dans l’eau subit une poussée verticale
proportionnelle à la masse d’eau qu’il déplace
• Mais les règles absolues sont rares
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 3
Statistiques
• Vitesse de la lumière dans le vide ?
• Une verre tombe ?
• La cigarette tue ?
• Tennis : 1ier mondial contre le 400ieme ?
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 4
Statistiques
• Vitesse de la lumière dans le vide ?
– Règle absolue : 300 000km/s
• Une verre tombe ?
– Il se casse souvent
• La cigarette tue ?
– Elle augmente les chances d’avoir le cancer.
• Tennis : 1ier mondial contre le 400ieme ?
– Il gagne très souvent.
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 5
Statistiques
• Vitesse de la lumière dans le vide ?
– Règle absolue : 300 000 m/s
• Une verre tombe ?
– Il se casse souvent
– Il a 98% de chance de se casser.
• La cigarette tue ?
– Elle augmente les chances d’avoir le cancer.
– 1 cigarette = 9 minutes de vie
• Tennis : 1ier mondial contre le 400ieme ?
– Il gagne très souvent.
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 6
Variabilité biologique
• A quel âge meurt un sportif ?
– Homme ? Femme ? Type de sport ? Accident ? Généalogie ? Soleil ?
• Un médicament est-il efficace ?
– Fonctionne dans 60% des cas. Pourquoi ? Personne ne sait…
• Quelle est la vitesse d’un sprinteur ?
– Nourriture ? Conditions météo ? Activité physique ? Repos ? Le stress ?
Relations affectives ? L’enjeu ?
La variabilité n'est pas l'exception,
c'est la règle.
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 7
Égalité en stat
• Espérance de vie ♂ à Charlas et Pointis ?
– 71,2 et 72,4 : la différence est minime.
• On dira que
la différence n’est pas significative.
71,2 et 72,4 sont statistiquement égaux
71,2 =S 72,4
• Cette différence est due à
la variabilité biologique
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 8
Différence en stat
• Espérance de vie ♂ à Charlas et Baillestavy ?
– 71,2 et 57,4 : la différence est énorme.
• On dira qu’il y a une vraie différence, ou que
la différence est significative.
71,2 et 57,4 sont statistiquement différents
71,2 ≠S 57,4
• Cette différence est due à une cause… qu’il nous faut
ensuite identifier.
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 9
Exemple
• La cigarette donne-t-elle le cancer ?
– Groupe A : fumeurs
– Groupe B : non fumeurs
• Si vie A =S B : alors cigarette innocente
• Si vie A <S B : alors cigarette coupable
• Si vie A >S B : alors cigarette bonne
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 10
Exemple
• La cigarette donne-t-elle le cancer ?
– Groupe A : fumeurs
– Groupe B : non fumeurs
• A=65 et B=76. Conclusion ?
• A=76 et B=75. Conclusion ?
• A=69 et B=73. Conclusion ?
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 11
Exemple
• La cigarette donne-t-elle le cancer ?
– Groupe A : fumeurs
– Groupe B : non fumeurs
• A=65 et B=76. Conclusion ? A<S B ; Mauvaise
• A=76 et B=75. Conclusion ? A=S B ; Innocente
• A=69 et B=73. Conclusion ? Difficile !
 un test statistique nous dira
variabilité biologique : x% de chances
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 12
Exemple réel
• Classes de CP et émigration
– Classe A, X émigrés.
– Classe B, Y émigrés.
• Question : la différence entre X et Y est-elle due à la variabilité
biologique (au hasard) ?
– Si X=0 et Y=10, répartition un peu louche
– Si X=5 et Y=5, à priori, pas de problème
– Si X=7 et Y=3, difficile à dire
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 13
Méthode de travail
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 14
Méthode de travail
1.
2.
3.
4.
5.
Formulation d’une hypothèse (on fait une supposition)
Collecte des données (ou mesure)
Calcul d’une statistique OBSERVÉE sur les données (T, 2, r)
Calcul d’une probabilité THÉORIQUE (donnée par des tables)
Conclusion
3 & 4 constituent un test statistique
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 15
1. Hypothèse
• Montrer le faux est plus facile que le vrai
– Tous les hommes ont deux bras
• Égalité : facile
– X =S Y
• Différence précise : difficile
– X =S Y + 1 ?
+2 ?
http://christophe.genolini.free.fr
-1 ?
+3 ?
Licence Stat-info
CM1b : 16
1. Hypothèse H0 (hypothèse nulle)
• H0 suppose toujours qu’il n’y a pas de différence significative,
que seule la variabilité biologique est en jeu.
• H0 : fumer ne donne pas le cancer des poumons
• H0 : le soleil ne donne pas le cancer des poumons
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 17
2. Collecte de données
• Cancer des poumons et tabac
Fumeurs
Non fumeurs
Cancer
22
4
http://christophe.genolini.free.fr
Non cancer
15875
54278
• Cancer des poumons et soleil
Soleil
Non soleil
Licence Stat-info
Cancer
3
5
Non cancer
57165
61911
CM1b : 18
2. Collecte de données
• TD 1à 10 : nous fournissons les données
• TD 11 : vous devez apporter vos données
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 19
3. Calcul d’une statistique OBSERVÉE
• Calcul d’une statistique (T, 2, r)
Fumeurs
Non fumeurs
Cancer
22
4
• 2Obs = 57
http://christophe.genolini.free.fr
Non cancer
15875
54278
Soleil
Non soleil
Cancer
5
7
Non cancer
57165
61911
• 2Obs = 0,19
Licence Stat-info
CM1b : 20
4. Calcul de la probabilité THÉORIQUE
2Obs = 57
2Obs = 0,19

P=0,0001%

P=44%
• 0,0001% de chances que
la différence constatée
soit due à la variabilité
biologique
• 44% de chances que la
différence constatée soit
due à la variabilité
biologique
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 21
5. Conclusion
• Si Proba ≤ 5% : on rejette H0 (H0 est fausse)
• Si Proba > 5% : on ne rejette pas H0 (H0 n’est pas fausse)
• On rejette :
La cigarette EST liée au
cancer des poumons
http://christophe.genolini.free.fr
• On ne rejette pas :
Le soleil N’EST PAS lié au
cancer des poumons
Licence Stat-info
CM1b : 22
Récapitulatif : méthode de travail
On se pose une question
1. Formulation de H0
↓
2. Collecte des données
↓
3. Calcul d’une statistique OBSERVÉE
↓
4. Calcul de la probabilité THÉORIQUE que
seule la variabilité biologique soit en jeu
↓
↓
5. Si P ≤ 5%, on rejette H0
http://christophe.genolini.free.fr
5. Si P > 5%, on accepte H0
Licence Stat-info
CM1b : 23
2. Collecte de données
• TD 1à 10 : nous fournissons les données
• TD 11 : vous devez apporter vos données
– Précision des tirs : nombre de récupération / perte de balle d'une équipe sur corner
ou sur dégagement
– Dopage : âge de décès des champions cyclistes qui couraient dans les années 50
– Dopage est-ouest : comparaison entre l'âge de décès des sportifs en fonction des
pays
– Sport dangereux : comparaison entre l'âge de décès des sportifs en fonction des
disciplines
– Différence entre les classements : durée d'un match de tennis selon la différence
de classement des joueurs
– Motivation : nombre "d'exploits sportifs" (gagner 5-0 à l'extérieur quand on a
mangé 0-4 à domicile, ou battre quelqu'un qui a 100 classements de plus) selon les
pays / les sexes.
– Autres : naissances selon la lune…
– Toutes vos idées sont les bienvenues
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 24
La semaine prochaine :
• Apportez…
3 dés par personne
http://christophe.genolini.free.fr
Licence Stat-info
CM1b : 25
Téléchargement