Statistiques et informatique • 7 CM + 12 TD en salle machine • Enseignants – – – – Pol Leborgne (responsable de l’EC) Christophe Genolini Tarak Driss Annabelle Couillandre • Evaluation – Contrôle continu (mini QCM + partiel long) – Examen Final • Absences INTERDITES en TD Licence Stat-info CM1 a 2004 Christophe Genolini 1 Que fait-on en stats ? • Variabilité biologique – Les règles absolues sont rares (Archimède, Newton, Einstein) – D’ou des règles probables • Exemples de ce que nous allons étudier : – – – – Étudiant en retard : la faute aux trains ? Comparaison entre groupes : quel prof est nul ? Répartition des « black & beurre » dans les classes : racisme à l’école ? Prêt-à-porter : quelles sont les tailles gagnantes ? • Construction d’une solution : hypothèse H0 Licence Stat-info CM1 a 2004 Christophe Genolini 2 1. Variabilité biologique • Règles absolues – Principe d’Archimède – Newton et sa pomme • Règles variables : – Une verre qui tombe se casse-t-il ? Souvent mais pas toujours – En combien de temps Marc descend-il un super-G ? En moyenne, 3’15’’ – Le train est-il en retard ? Dans 5% des cas Licence Stat-info CM1 a 2004 Christophe Genolini 3 1.1. Exemples • Performances du skieur – Nourriture ? Conditions météo ? Activité physique ? Repos ? Le stress ? Relation affectives ? L’enjeu ? • Efficacité d’un médicament • Taille d’un adulte La variabilité n'est pas l'exception, c'est la règle. Licence Stat-info CM1 a 2004 Christophe Genolini 4 Comment avoir des certitudes ? • Impossible ! On parlera de probabilités : • Skieur – Marc descend en moyenne en 3’13’’ – 95% de ses essais, il descend entre 3’05’’ et 3’21’’ • Ce médicament fonctionne sur 60% des patients • Taille : – 68% des françaises mesurent entre 1m57 et 1m67 – 95% des française mesurent entre 1m52 et 1m72 Licence Stat-info CM1 a 2004 Christophe Genolini 5 2.1. Exemple des trains • Problème des retards : – 5% des trains sont en retards – Un étudiant assiste à 26 TD – Il est en retard 6 fois • Question : les retards sont-ils dus au hasard (c’est à dire à la variabilité biologique) ? • Réponses évidentes – Un étudiant est en retard 1 fois : c’est normal (variabilité biologique) – Un étudiant est en retard 22 fois : c’est anormal – Un étudiant est en retard 6 fois : réponse au chapitre 2 (Khi-Deux) Licence Stat-info CM1 a 2004 Christophe Genolini 6 2.2. Racisme à l’école • Dans les deux classes de CP, on compte le nombre d’émigrés – Dans la première classe, il y a en a X. – Dans le deuxième, il y en a Y. • Question : la différence entre X et Y est-elle due à la variabilité biologique (au hasard) ? • Réponses évidentes : – Si X=0 et Y=10, il est évident que la méthode de répartition des élèves est un peu louche. – Si X=5 et Y=5, à priori, pas de problème. – Entre les deux : 2 (Khi-Deux) Licence Stat-info CM1 a 2004 Christophe Genolini 7 2.3. Exemple des tailles • Problème des tailles : – Les françaises mesurent en moyenne 1,62m, écart type 0,05m – Le prêt-à-porter veut habiller 68% de la population • Question : quel intervalle contient 68% des françaises ? • Question : quel est le pourcentage des françaises dont la taille est comprise dans l’intervalle [1,60m ; 1,64m] ? Licence Stat-info CM1 a 2004 Christophe Genolini 8 2.4. Comparaison de groupes • Deux enseignants utilisent deux méthodes d’enseignement différentes. – Les 150 élèves du premier obtiennent une moyenne générale A. – Les 150 élèves du second obtiennent une moyenne générale B. • Question : la différence entre A et B est-elle due à la variabilité biologique (au hasard) ? • Réponses évidentes : – Si A=10 et B=3, il est évident que la méthode du premier est plus efficace – Si A=9 et B=9, aucune différence notable ne permet de trancher. – Entre les deux : T de Student Licence Stat-info CM1 a 2004 Christophe Genolini 9 3.1. Statistiques et probabilités • Statistiques descriptives : – Elles décrivent : on a des mesures, elles résument les mesures ou donnent des indications sur les mesures. – Exemple : la moyenne d’une classe, les scores des matchs de foot • Statistiques inférentielles : – Elles prédisent : à l’aide des outils de la statistique descriptive, on peut évaluer la probabilité que certaines choses soient vraies (ou fausses), ou encore estimer une valeur inconnue. – Exemple : audimat, pronostics sportifs Licence Stat-info CM1 a 2004 Christophe Genolini 10 Exemple • Problème : J’ai une pièce, je veux savoir si elle est équilibrée. Hypothèse H0 : elle est équilibrée • Mesure statistique : Je joue dix fois à pile ou face, j’obtiens 9 piles • Calcul de probabilité : les outils mathématiques me disent que j’ai une chance sur mille d’obtenir 9 piles avec une pièce équilibrée Licence Stat-info CM1 a 2004 Christophe Genolini 11 3.2. Méthode de travail • Données : on a des données provenant de deux groupes A et B • Problème : on se demande s’il existe une « vraie » différence entre les groupes ou pas • Pour le savoir : – On fait une hypothèse, appelée hypothèse H0 : on suppose que seule la variabilité biologique est en jeu, A n’est pas différent de B. – On cherche la probabilité que H0 soit vraie. • Si H0 est très faiblement probable, alors on rejette H0. • Si H0 n’est pas faiblement probable, alors on ne dit rien Licence Stat-info CM1 a 2004 Christophe Genolini 12 3.3. Hypothèse H0 (hypothèse nulle) • Problème des train en retards : – H0 : les retards de l’étudiant (6 retards sur 26) sont dus à « pas de chance », à la variabilité biologique, au hasard. • Problème des moyennes : – H0 : la différence observée entre la moyenne A et la moyenne B est due au hasard de la répartition des étudiants entre les groupes, à la variabilité biologique. Licence Stat-info CM1 a 2004 Christophe Genolini 13 3.3. Résultat de l’étude : H0 faiblement probable • Quand H0 est faiblement probable, on rejette H0 : • Problème des train en retards : – Si la probabilité que H0 soit vraie est de 0,2% : il est fortement probable que H0 soit fausse, c’est à dire que les retards de l’étudiant ne soient pas liés au hasard. Ils sont donc liés à une autre cause… • Problème des moyennes : – Si la probabilité que H0 soit vraie est de 3% : il est fortement probable que la différence des moyennes ne soit pas liée au hasard. Elle est donc due à autre chose, probablement la méthode d’enseignement. Licence Stat-info CM1 a 2004 Christophe Genolini 14 3.3. Résultat de l’étude : H0 fortement probable • Quand H0 est fortement probable (ou moyennement probable), on ne rejette pas H0… mais on ne l’accepte pas non plus • Problème des train en retards : – Si la probabilité que H0 soit vraie est de 20% : il y a 80% de chances pour que H0 soit fausse. Si on rejette H0, on se trompe dans 20% des cas (ce qui est énorme). Donc on ne conclut pas. • Problème des moyennes : – Si la probabilité que H0 soit vraie est de 30% : hasard ou autre cause, on ne peut pas vraiment trancher. Licence Stat-info CM1 a 2004 Christophe Genolini 15 3.4. Ne pas rejeter H0 • Quand on ne rejette pas H0, on ne l’accepte pas pour autant… • Exemple : – on prend trois garçons mesurant 1m63, 1m64 et 1m66, – on compare à trois filles 1m60, 1m64 et 1m65 – H0 : la moyenne de taille des garçons et celle des filles sont (à peu prêt) identiques. – H0 n’est pas rejetée • Et pourtant : Cela ne veux pas dire pour autant que les moyennes sont les mêmes. Un échantillon plus grand permettra de conclure. Licence Stat-info CM1 a 2004 Christophe Genolini 16 3.4.1. Erreur de première espèce • Erreur de la première espèce : dans l’absolue, H0 est fausse, mais notre expérience ne nous permet pas de nous en rendre compte : on ne rejette pas H0 alors que H0 est fausse • Exemple : on compte les bébés à la naissance, on trouve 26 garçons et 24 filles. La différence est-elle significative ? Non. Notre expérience ne nous permet pas de conclure Et pourtant, sur un plus grand nombre d’essais, on aurait trouvé une différence hautement significative Licence Stat-info CM1 a 2004 Christophe Genolini 17 3.4.2. Erreur de deuxième espèce • Erreur de la deuxième espèce : dans l’absolue, H0 est vraie, mais notre expérience ne nous permet pas de nous en rendre compte : on rejette H0 alors que H0 est vraie • Exemple : un médicaments a soigné 200 malades de plus qu’un placebo. Peut-on conclure ? Oui. Notre expérience nous le permet Et pourtant, sur un plus grand nombre d’essai, on n’aurait pas trouvé de différence Licence Stat-info CM1 a 2004 Christophe Genolini 18 Récapitulatif Dans l’absolue Dans l’absolue H0 est H0 est VRAIE FAUSSE Le chercheur ACCEPTE H0 Licence Stat-info Tout va bien Erreur de PREMIERE espèce Le chercheur Erreur de REJETTE H0 DEUXIEME espèce Tout va bien CM1 a 2004 Christophe Genolini 19