Cours1 - Ent Paris 13

publicité
M1 MQSE
1 - L’outil statistique pour tirer des conclusions dans un
monde de variabilité
2 - Utiliser la statistique: se confronter au hasard
3 - La statistique: un outil pour décrire et estimer
4 - La statistique: un outil pour tirer des conclusions
5 - Utiliser les tests statistiques et en comprendre leur
conclusion
1
COURS N°1
L’outil statistique pour tirer des conclusions dans un
monde de variabilité
2
Quelle est la prévalence de
malades dans la population ?
Enquête en population
Enquête exhaustive
- causes de décès
- registre
Population de 25 individus
4 individus malades
Prévalence dans la population = 4/ 25
3
Quelle est la prévalence de
malades dans la population ?
Enquête en population
Enquête sur un échantillon de la population
Prévalence dans la
population=1/10
?
Echantillons de 10 individus
1 individu malade
Prévalence dans l’échantillon = 1/10
4
Quelle est la prévalence de
malades dans la population ?
Prévalence = 3/10
Prévalence = 1/10
Prévalence dans la
population
?
Prévalence = 3/10
5
Comment définir la prévalence dans la population?
Hasard
Estimation
statistique
Prévalence dans la
population =
Intervalle de valeurs
très probables
Echantillons de 10 individus
1 individu malade
Prévalence dans l’échantillon = 1/10
6
Pourquoi utiliser la méthode statistique?
Notion de variabilité : inter-individuelle
intra-individuelle
inter-observateurs
instrument de mesure
Situation d ’estimation :ce que l ’on observe dans un petit
groupe d ’individus est-il le reflet de la réalité?
Les méthodes statistiques sont des outils qui permettent
de tirer des conclusions objectives sur des énoncés
scientifiques, face à l ’incertitude à toute étude empirique.
La statistique est une méthode mathématique pour
mesurer l ’incertitude scientifique et pour enlever ses
effets.
7
Population statistique
Ensemble sur lequel on veut obtenir des informations. En
général sa taille est très grande et il n’est pas possible
d’interroger tous ses individus
Exemples :
ensemble de personnes interrogeables pour une enquête,
ensemble des électeurs
ensemble de la patientèle d’un service de médecine
8
Echantillon
Sous ensemble de la population ayant une taille assez
petite pour chaque individu le composant puisse être
interrogé
Exemples :
Les personnes interrogées pour une enquête,
Certains électeurs
Certains patients d’un service de médecine
9
Individu (unité statistique)
Éléments de la population statistiques étudiée. Pour
chaque individu, on dispose d’une ou plusieurs
observations.
Exemples :
Chacune des personnes interrogées pour une enquête,
Chaque électeurs
Chaque patient d’un service de médecine
10
Quand utiliser les méthodes statistiques
Dès lors que l’on s’intéresse à un sous ensemble de la
population étudiée (échantillons)
Statistique inférentielle
- déduction: partir de la population pour connaître
l’échantillon
- induction: partir de l’échantillon pour connaître la
population
Lorsqu’on s’intéresse à la totalité de la population, il n’y a
pas lieu d’utiliser les méthodes de statistique inférentielle,
on peut cependant utiliser les méthodes de statistique
descriptive
11
Quand utiliser les méthodes statistiques
Tous les étudiants de Villetaneuse ont été mesurés. La
taille moyenne des filles est de 1,6 m et celle des garçons
de 1,7 m.
Peut-on dire qu’à la faculté de Villetaneuse, les garçons
ont une taille moyenne supérieure à celle des filles?
Quelle est la population?
Quel est l’échantillon?
Utilise-t-on la méthode statistique?
12
Quand utiliser les méthodes statistiques
Tous les étudiants de Villetaneuse ont été mesurés. La
taille moyenne des filles est de 1,6 m et celle des garçons
de 1,7 m.
Peut-on dire qu’à la faculté de Villetaneuse, les garçons
ont une taille moyenne supérieure à celle des filles?
Quelle est la population étudiée? Les étudiants de la
faculté de Villetaneuse
Quel est l’échantillon? Il n’y a pas d’échantillon, toute la
population est étudiée
Utilise-t-on la méthode statistique? Non, on peut conclure
sans cet outil: les étudiants de Villetaneuse sont plus
grands que les étudiantes de Villetaneuse
13
Quand utiliser les méthodes statistiques
Tous les étudiants de Villetaneuse ont été mesurés. La
taille moyenne des filles est de 1,6 m et celle des garçons
de 1,7 m.
Peut-on dire que les étudiants en France sont plus grands
que les étudiantes en France?
Quelle est la population?
Quel est l’échantillon?
Utilise-t-on la méthode statistique?
14
Quand utiliser les méthodes statistiques
Tous les étudiants de Villetaneuse ont été mesurés. La
taille moyenne des filles est de 1,6 m et celle des garçons
de 1,7 m.
Peut-on dire que les étudiants en France sont plus grands
que les étudiantes en France?
Quelle est la population? Les étudiants en France
Quel est l’échantillon? Les étudiants de Villetaneuse
Utilise-t-on la méthode statistique? Oui car à partir d’un
échantillon on veut généraliser à une population plus
grande. Pour cela, il faut s’assurer que l’échantillon étudié
est représentatif de la population qu’il est sensé
représenter
15
Variable
Ce qui est observé ou mesuré sur les individus d’une
population.
Caractéristique ou facteur susceptible de prendre une
valeur différente selon les individus
Exemples :
La profession des personnes interrogées pour une
enquête,
L’opinion des électeurs
Le taux de cholestérol des patients d’un service de
médecine
16
Variable quantitative
s'expriment par des nombres réels sur lesquels les
opérations arithmétiques courantes (somme, moyenne ...)
ont un sens (age, taille).
Une variable quantitative est discrète si elle ne peut
prendre que des valeurs isolées, généralement entières
(nombre d’enfant dans la fratrie).
Une variable quantitative est continue si ses valeurs
peuvent être n'importe lesquelles d'un intervalle réel (taille).
17
Variable qualitative
S’exprime par une expression littérale (des mots) ou un
nombre sur lesquels les opérations arithmétiques
courantes n'ont aucun sens (un numéro de département).
Une variable qualitative est ordinale si l'ensemble des
catégories est munie d'un ordre total (Intensité (faible,
moyenne, élevée))
Une variable qualitatives est nominale s’il n'y a aucune
raison d'écrire les modalités possibles dans un ordre plutôt
que dans un autre (couleur des yeux (bleu, vert, marron))
Une variable est dichotomique lorsqu’elle n’a que 2
modalités (Sexe (M ou F, 1 ou 0), qualité (bonne ou mauvaise))
18
Nature des variables statistiques
19
Série statistique brute
Sujet
Taille
(cm)
Age (années)
Sexe
Classe de
taille
1
170
50
F
Normal
2
164
45
F
Petit
3
180
38
H
Grand
4
172
25
H
Normal
5
157
65
F
Petit
6
175
57
H
Normal
...
...
...
...
...
...
...
...
...
...
630
168
45
F
Normal
Nombre d’individus?
Nombre de variables?
Type de variables?
20
Série statistique brute
Sujet
Taille
(cm)
Age (années)
Sexe
Classe de
taille
1
170
50
F
Normal
2
164
45
F
Petit
3
180
38
H
Grand
4
172
25
H
Normal
5
157
65
F
Petit
6
175
57
H
Normal
...
...
...
...
...
...
...
...
...
...
630
168
45
F
Normal
Nombre d’individus? 630
Nombre de variables?4
21
Un technicien doit vérifier le bon fonctionnement d'une
chaîne d'embouteillage d'une cave coopérative.
On considère que le remplissage est correct si le contenu
des bouteilles se situe entre 74 cl et 76 cl.
Il note exactement le contenu de 100 bouteilles testées (en
cl) :
74.3 75.2 73 75 75.6 ....
Quelle est la variable mesurée?
Quels sont les individus?
Nombre d’individus dans la population étudiée?
22
Un technicien doit vérifier le bon fonctionnement d'une
chaîne d'embouteillage d'une cave coopérative.
On considère que le remplissage est correct si le contenu
des bouteilles se situe entre 74 cl et 76 cl.
Il note exactement le contenu de 100 bouteilles testées (en
cl) :
74.3 75.2 73 75 75.6 ....
Quelle est la variable mesurée? Contenu de la bouteille
Quels sont les individus? Les bouteilles
Nombre d’individus dans la population étudiée? 100
23
24
Variables
n° 1
qualitative
n° 2
Qualitative à 2 modalités
n° 3
Quantitative discrète
n° 4
qualitative
n° 5
Quantitative discrète
n° 6
Quantitative continue
n° 7
Quantitative continue
n° 8
Quantitative continue
25
26
Variable
s
n° 1
n° 2
n° 3
n° 4
n° 5
dichotomique
ordinale
nominale
dichotomique
nominale
27
Quelle que soit la nature de la variable, il faut toujours
s'assurer qu'elle est définie pour chaque individu sans
ambiguïté. Pour chaque individu et chaque variable il
doit y avoir une et une seule valeur (ou modalité).
28
Distribution d’une variable aléatoire
La variable est aléatoire lorsqu’elle peut prendre une
valeur qui change d’un individu à l’autre.
Si on prend un individu au hasard, la valeur de la variable
mesurée n’est pas connue à l’avance.
On connaît la distribution d’une variable aléatoire lorsqu’on
connaît les probabilités associées à chacune de ses
valeurs possibles
29
Distribution d’une variable aléatoire
Exemple du jet de un dé
la probabilité
la probabilité
la probabilité
la probabilité
la probabilité
la probabilité
de faire 1 : 1/6
de faire 2 : 1/6
de faire 3 : 1/6
de faire 4 : 1/6
de faire 5 : 1/6
de faire 6 : 1/6
30
Distribution d’une variable aléatoire
Exemple du jet de 6 pièces de monnaies, distribution de la
variable nombre de « face »
la probabilité d’avoir 0 « face »
la probabilité d’avoir 1 « face »
la probabilité de faire 2 « face »
la probabilité de faire 3 « face »
la probabilité de faire 4 « face »
la probabilité de faire 5 « face »
la probabilité de faire 6 « face »
31
Distribution d’une variable aléatoire
Exemple du jet de 20 pièces de monnaies, distribution de
la variable nombre de « face »
32
Distribution d’une variable aléatoire
Exemple du jet de un nombre infini de pièces de
monnaies, distribution de la variable nombre de « face »
33
Loi d’une variable aléatoire
La loi d’une variable aléatoire est la liste des probabilités
d’apparition de chacune des issues de l’expérience.
La loi normale: une loi de distribution très utilisée en
statistique
Quand une variable est la résultante d’un grand nombre
de variables indépendantes (génétique, nutrition,
environnement…), elle suit une loi normale
34
Loi normale
C ’est un modèle de distribution théorique.
Elle s’applique aux variables quantitatives continues
Elle est centrée autour de la moyenne (médiane=moyenne)
La probabilité d ’observer une valeur comprise entre -1,96
écart type et +1,96 écart type autour de la moyenne est de
95%
La probabilité d ’observer une valeur comprise entre -1 écart
type et +1 écart type autour de la moyenne est de 68%
35
Loi normale: répartition des tailles
36
Loi normale quelconque, loi normale centrée
réduite
On pourrait construire autant de loi normale qu’il existe de
variables aléatoires, elles auraient la même allure mais
seraient centrées sur des valeurs variant d’une variable à
l’autre et auraient des points d’inflexion variant d’une variable
à l’autre.
Aussi pour avoir une loi normale de référence, il est possible
d’opérer des transformations sur les variables pour obtenir
des variables centrées réduites qui suivent une loi normale
centrée réduite.
La loi normale centrée réduite, elle présente la caractéristique
d’avoir pour moyenne =0 et pour écart type =1.
37
Loi normale centrée réduite
38
Utilisation de la loi centrée réduite
Pr(Z>1,64)
39
Utilisation de la loi normale
Pr(Z<1,64)
40
Utilisation de la loi normale
Pr(1<Z<2)
41
Téléchargement