Statistiques et informatique

publicité
Statistiques et informatique
• 7 CM + 12 TD en salle machine
• Enseignants
–
–
–
–
Pol Leborgne (responsable de l’EC)
Christophe Genolini
Tarak Driss
Annabelle Couillandre
• Evaluation
– Contrôle continu (mini QCM + partiel long)
– Examen Final
• Absences INTERDITES en TD
Licence Stat-info
CM1 a 2004
Christophe Genolini
1
Que fait-on en stats ?
• Variabilité biologique
– Les règles absolues sont rares (Archimède, Newton, Einstein)
– D’ou des règles probables
• Exemples de ce que nous allons étudier :
–
–
–
–
Étudiant en retard : la faute aux trains ?
Comparaison entre groupes : quel prof est nul ?
Répartition des « black & beurre » dans les classes : racisme à l’école ?
Prêt-à-porter : quelles sont les tailles gagnantes ?
• Construction d’une solution : hypothèse H0
Licence Stat-info
CM1 a 2004
Christophe Genolini
2
1. Variabilité biologique
• Règles absolues
– Principe d’Archimède
– Newton et sa pomme
• Règles variables :
– Une verre qui tombe se casse-t-il ?
 Souvent mais pas toujours
– En combien de temps Marc descend-il un super-G ?
 En moyenne, 3’15’’
– Le train est-il en retard ?
 Dans 5% des cas
Licence Stat-info
CM1 a 2004
Christophe Genolini
3
1.1. Exemples
• Performances du skieur
– Nourriture ? Conditions météo ? Activité physique ? Repos ? Le
stress ? Relation affectives ? L’enjeu ?
• Efficacité d’un médicament
• Taille d’un adulte
La variabilité n'est pas l'exception,
c'est la règle.
Licence Stat-info
CM1 a 2004
Christophe Genolini
4
Comment avoir des certitudes ?
• Impossible ! On parlera de probabilités :
• Skieur
– Marc descend en moyenne en 3’13’’
– 95% de ses essais, il descend entre 3’05’’ et 3’21’’
• Ce médicament fonctionne sur 60% des patients
• Taille :
– 68% des françaises mesurent entre 1m57 et 1m67
– 95% des française mesurent entre 1m52 et 1m72
Licence Stat-info
CM1 a 2004
Christophe Genolini
5
2.1. Exemple des trains
• Problème des retards :
– 5% des trains sont en retards
– Un étudiant assiste à 26 TD
– Il est en retard 6 fois
• Question : les retards sont-ils dus au hasard (c’est à dire à la
variabilité biologique) ?
• Réponses évidentes
– Un étudiant est en retard 1 fois : c’est normal (variabilité biologique)
– Un étudiant est en retard 22 fois : c’est anormal
– Un étudiant est en retard 6 fois : réponse au chapitre 2 (Khi-Deux)
Licence Stat-info
CM1 a 2004
Christophe Genolini
6
2.2. Racisme à l’école
• Dans les deux classes de CP, on compte le nombre d’émigrés
– Dans la première classe, il y a en a X.
– Dans le deuxième, il y en a Y.
• Question : la différence entre X et Y est-elle due à la variabilité
biologique (au hasard) ?
• Réponses évidentes :
– Si X=0 et Y=10, il est évident que la méthode de répartition des élèves est
un peu louche.
– Si X=5 et Y=5, à priori, pas de problème.
– Entre les deux : 2 (Khi-Deux)
Licence Stat-info
CM1 a 2004
Christophe Genolini
7
2.3. Exemple des tailles
• Problème des tailles :
– Les françaises mesurent en moyenne 1,62m, écart type 0,05m
– Le prêt-à-porter veut habiller 68% de la population
• Question : quel intervalle contient 68% des françaises ?
• Question : quel est le pourcentage des françaises dont la taille
est comprise dans l’intervalle [1,60m ; 1,64m] ?
Licence Stat-info
CM1 a 2004
Christophe Genolini
8
2.4. Comparaison de groupes
• Deux enseignants utilisent deux méthodes d’enseignement
différentes.
– Les 150 élèves du premier obtiennent une moyenne générale A.
– Les 150 élèves du second obtiennent une moyenne générale B.
• Question : la différence entre A et B est-elle due à la variabilité
biologique (au hasard) ?
• Réponses évidentes :
– Si A=10 et B=3, il est évident que la méthode du premier est plus efficace
– Si A=9 et B=9, aucune différence notable ne permet de trancher.
– Entre les deux : T de Student
Licence Stat-info
CM1 a 2004
Christophe Genolini
9
3.1. Statistiques et probabilités
• Statistiques descriptives :
– Elles décrivent : on a des mesures, elles résument les mesures ou
donnent des indications sur les mesures.
– Exemple : la moyenne d’une classe, les scores des matchs de foot
• Statistiques inférentielles :
– Elles prédisent : à l’aide des outils de la statistique descriptive, on
peut évaluer la probabilité que certaines choses soient vraies (ou
fausses), ou encore estimer une valeur inconnue.
– Exemple : audimat, pronostics sportifs
Licence Stat-info
CM1 a 2004
Christophe Genolini
10
Exemple
• Problème : J’ai une pièce, je veux savoir si elle est équilibrée.
Hypothèse H0 : elle est équilibrée
• Mesure statistique : Je joue dix fois à pile ou face, j’obtiens 9
piles
• Calcul de probabilité : les outils mathématiques me disent que
j’ai une chance sur mille d’obtenir 9 piles avec une pièce
équilibrée
Licence Stat-info
CM1 a 2004
Christophe Genolini
11
3.2. Méthode de travail
• Données : on a des données provenant de deux groupes A et B
• Problème : on se demande s’il existe une « vraie » différence
entre les groupes ou pas
• Pour le savoir :
– On fait une hypothèse, appelée hypothèse H0 : on suppose que seule la
variabilité biologique est en jeu, A n’est pas différent de B.
– On cherche la probabilité que H0 soit vraie.
• Si H0 est très faiblement probable, alors on rejette H0.
• Si H0 n’est pas faiblement probable, alors on ne dit rien
Licence Stat-info
CM1 a 2004
Christophe Genolini
12
3.3. Hypothèse H0 (hypothèse nulle)
• Problème des train en retards :
– H0 : les retards de l’étudiant (6 retards sur 26) sont dus à « pas de
chance », à la variabilité biologique, au hasard.
• Problème des moyennes :
– H0 : la différence observée entre la moyenne A et la moyenne B est due
au hasard de la répartition des étudiants entre les groupes, à la variabilité
biologique.
Licence Stat-info
CM1 a 2004
Christophe Genolini
13
3.3. Résultat de l’étude :
H0 faiblement probable
• Quand H0 est faiblement probable, on rejette H0 :
• Problème des train en retards :
– Si la probabilité que H0 soit vraie est de 0,2% : il est fortement probable
que H0 soit fausse, c’est à dire que les retards de l’étudiant ne soient pas
liés au hasard. Ils sont donc liés à une autre cause…
• Problème des moyennes :
– Si la probabilité que H0 soit vraie est de 3% : il est fortement probable
que la différence des moyennes ne soit pas liée au hasard. Elle est donc
due à autre chose, probablement la méthode d’enseignement.
Licence Stat-info
CM1 a 2004
Christophe Genolini
14
3.3. Résultat de l’étude :
H0 fortement probable
• Quand H0 est fortement probable (ou moyennement probable),
on ne rejette pas H0… mais on ne l’accepte pas non plus
• Problème des train en retards :
– Si la probabilité que H0 soit vraie est de 20% : il y a 80% de chances pour
que H0 soit fausse. Si on rejette H0, on se trompe dans 20% des cas (ce
qui est énorme). Donc on ne conclut pas.
• Problème des moyennes :
– Si la probabilité que H0 soit vraie est de 30% : hasard ou autre cause, on
ne peut pas vraiment trancher.
Licence Stat-info
CM1 a 2004
Christophe Genolini
15
3.4. Ne pas rejeter H0
• Quand on ne rejette pas H0, on ne l’accepte pas pour autant…
• Exemple :
– on prend trois garçons mesurant 1m63, 1m64 et 1m66,
– on compare à trois filles 1m60, 1m64 et 1m65
– H0 : la moyenne de taille des garçons et celle des filles sont (à peu prêt)
identiques.
– H0 n’est pas rejetée
• Et pourtant : Cela ne veux pas dire pour autant que les moyennes
sont les mêmes. Un échantillon plus grand permettra de
conclure.
Licence Stat-info
CM1 a 2004
Christophe Genolini
16
3.4.1. Erreur de première espèce
• Erreur de la première espèce : dans l’absolue, H0 est
fausse, mais notre expérience ne nous permet pas de nous
en rendre compte :
 on ne rejette pas H0 alors que H0 est fausse
• Exemple : on compte les bébés à la naissance, on trouve 26
garçons et 24 filles. La différence est-elle significative ?
 Non. Notre expérience ne nous permet pas de conclure
 Et pourtant, sur un plus grand nombre d’essais, on aurait trouvé
une différence hautement significative
Licence Stat-info
CM1 a 2004
Christophe Genolini
17
3.4.2. Erreur de deuxième espèce
• Erreur de la deuxième espèce : dans l’absolue, H0 est
vraie, mais notre expérience ne nous permet pas de nous en
rendre compte :
 on rejette H0 alors que H0 est vraie
• Exemple : un médicaments a soigné 200 malades de plus
qu’un placebo. Peut-on conclure ?
 Oui. Notre expérience nous le permet
 Et pourtant, sur un plus grand nombre d’essai, on n’aurait pas
trouvé de différence
Licence Stat-info
CM1 a 2004
Christophe Genolini
18
Récapitulatif
Dans l’absolue Dans l’absolue
H0 est
H0 est
VRAIE
FAUSSE
Le chercheur
ACCEPTE H0
Licence Stat-info
Tout va bien
Erreur de
PREMIERE
espèce
Le chercheur
Erreur de
REJETTE H0 DEUXIEME
espèce
Tout va bien
CM1 a 2004
Christophe Genolini
19
Téléchargement