Présentation 5 - cours GEP 707

publicité
+
Inférence
tests univariés
tests bivariés
Eugénie Dostie-Goulet
Plan de la présentation
Comment faire une bonne recherche statistique
L’inférence
Risques de biais
Distribution normale
inférence : tests univariés (moyenne, pourcentage)
Inférence : tableaux croisés et Chi2 (khi-deux)
+
On ne prouve rien
 Lacunes
conceptuelles: restons modestes!
 Impossible
 Hasard
 Notre
de spécifier le modèle parfaitement
dans l’échantillonnage
objectif est donc de tester des hypothèses, de
confronter nos résultats à nos attentes. Il y a toujours quelque
chose à en tirer, peu importe le résultat.
+
Réflexion théorique
 La
théorie est au coeur de l’analyse statistique: on base nos
hypothèses sur cette théorie, on l’utilise pour alimenter la
discussion sur nos résultats, on l’enrichit grâce à ces
résultats et les conclusions qu’on en tire.
 Il
est donc essentiel de saisir les arguments théoriques et les
débats qui s’y trouvent avant de se lancer dans des analyses
trop poussées.
 ... ce
qui ne veut pas dire qu’on ne « découvrira » rien!
+
Formulation du problème
Identification
d’un problème
Motivation: qui
Inondations
au Pakistan
s’intéresse à nos résultats?
Il y a plus de 125 000
Canadiens d’origine
pakistanaise...
 Les
décideurs s’intéressent à l’importance sociale ou politique
des résultats d’une recherche.
 Les chercheurs veulent une contribution à l’avancement des
connaissances scientifiques
Énoncé
sous forme de question
On en connaît peu sur l’origine
de l’aide en situation de crise
 problème général, qu’on précise, et pour lequel on pose une
question
Quels sont les facteurs
influençant l’aide en
situation de crise?
+
Construction du cadre opératoire
Hypothèse
 Doit

La littérature nous aide à en juger
 Doit

être précise
Formulation sans ambiguïté
 Doit

être vérifiable
Basée sur des concepts/variables opératoires (précis, mesurables)
 Doit

être plausible
être générale
Le pouvoir d’explication va au-delà du cas particulier
Plus la diaspora est nombreuse dans un pays d’accueil, plus ce pays est
porté à dépenser lorsqu’un drame survient dans le pays d’origine
+
Construction du cadre opératoire
Unité d’analyse
 Des
individus? des villes? des pays?
Variable dépendante, variable
indépendante, variables contrôle
 Bien
les choisir
Indicateur
 Ce
qu’on utilise pour « représenter » chaque variables
+
Structuration
Schéma conceptuel
Variables
indépendantes
ou les « causes »
Variable dépendante
ou la « conséquence »
Importance de la
diaspora
Médiatisation du drame
Nombre de morts
Résolution de l’ONU
Aide
internationale
en millions de $
+
Cueillette des données
Analyse des données /
interprétation des résultats
+
L’analyse confirmatoire
+
Quelques notions d’inférence
statistique
 Inférence
statistique: ensemble des méthodes permettant de
tirer des conclusions sur un groupe déterminé – la
population – à partir des données provenant d’un échantillon
choisi dans cette population.
 L’estimation
ponctuelle est ajustée pour tenir compte de
l’erreur échantillonnale: c’est la notion de « niveau de
confiance ».
+

Biais possibles
Biais échantillon

Taux de réponse (par téléphone, environ 50 à 60%)

Qui répond?


Ceux qui sont à la maison

Ceux que ça intéresse
Problématique du cellulaire
Biais répondant



« Qualité » de la réponse

Rapports avec l’enquêteur

Désirabilité sociale

Image conforme, « normale »

Mémoire

Hasard
Biais questionnaire

Formulation des questions

Formulation des réponses
Erreur échantillonnale
+
Quelques termes
Population
Échantillon
Définition
L’ensemble des
unités considérées
par le chercheur
Un sous-ensemble de
la population choisi
pour étude
Symbole
Lettres grecques ou
majuscules
lettres minuscules
paramètre
statistique
N
n
m (mu)
x- (x barre)
σ (sigma)
s
π (pi)
p
Caractéristique
Taille
Moyenne
Écart-type
Pourcentage
+
La distribution normale
Une distribution normale a deux paramètres: sa moyenne et son écart-type
Propriété fondamentale:
pour toute combinaison de
moyenne et d’écart-type, il y
aura toujours une proportion
de cas constante entre la
moyenne et un point
quelconque situé à une
certaine distance de la
moyenne exprimée en termes
d’unité(s) d’écart-type
+

Environ 68 % des données se situent à l'intérieur de l'intervalle
: -S< x < + S.

Environ 95 % des données se situent à l'intérieur de l'intervalle
: - 2S< x < + 2S.

Environ 99 % des données se situent à l'intérieur de l'intervalle
: - 3S< x < + 3S.
+
De la moyenne de l’échantillon à la
moyenne de la population...
_


À 95% de certitude: μ = x ± 1,96 sx- où sx- = s/√n
_
À 99% de certitude: μ = x ± 2,58 sx- où sx- = s/√n
u = moyenne de la population
x = moyenne de l’échantillon
s-x = écart-type de la distribution d’échantillonnage
s = écart-type de l’échantillon
+
D’où vient le 1,96?

Avec une variable continue, la probabilité d’obtenir une
certaine valeur précise est trop petite pour attribuer une
probabilité à chaque valeur. On attribue donc une
probabilité à un intervalle de valeurs par voie d’estimation
par intervalle. Cette probabilité est représentée par l’aire
sous la courbe de distribution normale.

C’est la cote Z qui permet d’attribuer une probabilité à un
intervalle de valeurs.

À une cote Z de 1,96 correspond une aire sous la courbe de
0,975. Donc:

Une proportion de 0,025 (ou 2,5%) des cas sont entre 1,96 et
l’infini positif, et 2,5% entre -1,96 et l’infini négatif. Donc 5% des
cas sont à l’extérieur de l’intervalle allant de -1,96 à 1,96 (soit
environ 2s de la moyenne).
+
De la moyenne de l’échantillon à la
moyenne de la population...
_


À 95% de certitude: μ = x ± 1,96 sx- où sx- = s/√n
_
À 99% de certitude: μ = x ± 2,58 sx- où sx- = s/√n
μ = moyenne de la population
x = moyenne de l’échantillon
s-x = écart-type de la distribution d’échantillonnage
s = écart-type de l’échantillon
+
Distribution d’échantillonnage

Imaginez qu’on ne prend pas seulement un échantillon tiré au
hasard, mais tous les échantillons possibles...
Exemple simple: population de cinq personnes, échantillon de deux
cas. Combien d’échantillons possibles? 10
Exemple complexe: population de 5 000 000 d’électeurs québécois,
échantillon de 1000 cas. Combien d’échantillons possibles?
27 000 000 000 000 000 000 000 000 000 000 000 000 000

Donc imaginez qu’on prend la moyenne de chacun de ces
échantillons... on peut alors construire notre distribution
d’échantillonnage
À partir de 30 cas, la moyenne de cette distribution d’échantillonnage
correspond à la moyenne de la population & la distribution
d’échantillonnage suit une distribution normale.
+
De la moyenne de l’échantillon à la
moyenne de la population...
_


À 95% de certitude: μ = x ± 1,96 sx- où sx- = s/√n
_
À 99% de certitude: μ = x ± 2,58 sx- où sx- = s/√n
Tous les éléments de la formule affectent l’ampleur de l’intervalle:
1)Le niveau de confiance: plus on veut être confiant, plus grand sera
l’intervalle (et moins l’estimation sera précise
2)L’écart-type de l’échantillon: plus il y a de dispersion, plus grand sera
l’intervalle (et moins l’estimation sera précise)
3)La taille de l’échantillon: plus grand est l’échantillon, plus petit sera
l’intervalle (et plus l’estimation sera précise)
+
Exercice

En Grande-Bretagne, on a demandé à un échantillon de 2326
électeurs de donner leur appréciation de chacun des partis
sur une échelle de 0 à 10.

Quel est l’intervalle de valeurs pour la moyenne dans la
population pour chacun des partis?

Sommes-nous exacts si nous affirmons qu’en moyenne, les
Britanniques préfèrent les Libéraux?
Moyenne
Écart-type
Travaillistes
4,38
3,42
Conservateurs
3,89
3,05
Libéraux-Démoc.
4,62
2,93
+
Le tableau croisé

Lorsqu’on travaille avec des données quantitatives, le tableau
croisé est utilisé pour observer la relation entre deux
variables lorsque ces variables ont peu de catégories. Un
maximum de 20 cellules est fortement recommandé.

En analyse confirmatoire, on travaille avec une variable
dépendante et au moins une variable indépendante. Dans un
tableau croisé, la convention veut que la variable
indépendante soit sur le haut (colonnes) et la variable
dépendante sur le côté gauche (lignes, ou rangées).

Les pourcentages font référence à la variable indépendante
(colonnes).
+
Le test du Chi2

Basé sur l’hypothèse que le chercheur a établi à l’avance une
relation entre les deux variables

Suppose un échantillon aléatoire

Le test est fiable si pas plus de 25% des cellules ont moins de
5 cas de fréquence attendue
+
Le Chi2 :
La relation entre le sexe et le fait d’être syndiqué
Fréquences attendues
Cas « réel »
(par l’hypothèse nulle)
Homme
Femme
Total
Syndiqué
13
(65%)
9
(33%)
22
(47%)
Pas
syndiqué
7
(35%)
18
(67%)
25
(53%)
Total
20
(100%)
27
(100%)
47
(100%)
Chi2 (1) : 4,6 p<0,05
Homme
Femme
Total
Syndiqué
9,4
(47%)
12,6
(47%
22
(47%)
Pas
syndiqué
10,6
(53%)
14,4
(53%)
25
(53%)
Total
20
(100%)
27
(100%)
47
(100%)
Chi2 (1) : 0
+ À Londres: opinion sur la gestion du crime par le
gouvernement chez les partisans travaillistes et les autres
Parti travailliste
Autre parti
Total
Très bonne
gestion
2
(1,79%)
2
(1,30%)
4
(1,55%)
Assez bonne
gestion
45
(40,18%
13
(8,44%)
58
(22,48%)
Ni bonne ni
mauvaise gestion
31
(27,68%)
48
(31,17%
79
(30,62%)
Assez mauvaise
gestion
25
(22,32%
39
(25,32%)
64
(24,81%)
Très mauvaise
gestion
5
(4,46%)
48
(31,17%)
53
(20,54%)
Total
112
(100%)
154
(100%)
266
(100%)
Chi2: 53.9768 p < 0.000
chisq.test(tableaucroisé)
R
Pearson's Chi-squared test
data: tableaucroisé
X-squared = 53.9768, df = 4 , p-value < 0.000
Téléchargement