estimation et les intervalles de confiance

publicité
La confiance et l'importance:
Concepts clés de la statistique
inférentielle
février 2009
University of Reading
Statistical Services Centre
Biometrics Advisory and
Support Service to DFID
Contents
1.Introduction ............................................................................................................................. 3
2.L'application d'idées Estimation ............................................................................................. 4
3.Les erreurs-types ..................................................................................................................... 6
4.Les intervalles de confiance .................................................................................................... 8
5.Hypothèse d'essai .................................................................................................................... 9
5.1 Un exemple simple .......................................................................................................... 9
5.2 comprendre la signification............................................................................................ 11
5,3 idées générales ............................................................................................................... 13
5.4 Structure Reconnaissant ................................................................................................. 14
6. Taille de l'échantillon nécessaire, ........................................................................................ 15
7.Des méthodes non paramétriques ......................................................................................... 16
8. L'analyse de variance ........................................................................................................... 18
8.1
Introduction .......................................................................................................... 18
8.2
One-Way ANOVA............................................................................................... 18
8.3
Tests de comparaisons multiples ......................................................................... 20
9.Un cadre général ................................................................................................................... 21
1.Introduction
Dans ce guide, nous passons en revue les concepts de base de l'estimation et
l'hypothèse ou l'importance, les essais. Notre objectif est de discuter les idées clés de
l'inférence statistique d'une façon qui est facile à comprendre. Ces idées sont souvent
mal compris et ce manque de compréhension contribue à la méfiance par certains
membres du personnel de l'ole r des statistiques dans leur travail.Vous pouvez utiliser
les trois questions suivantes pour décider si vous avez besoin d'en lire davantage.
1. L'écart-type et l'erreur-type sont à la fois utilisé
Vraie
Faux
Je ne
sais pas
❐
❐
❐
❐
❐
❐
❐
❐
❐
pour résumer la propagation des données
1. L'intervalle de confiance à 95% pour la moyenne
est l'intervalle qui couvre environ 95% des
observations.
1. Si la différence entre les effets de deux pratiques
de gestion agricole n'est pas statistiquement
significative, la conclusion est qu'il n'y a aucune
différence entre eux.
Si vous avez répondu faux confiance aux trois questions ci-dessus vous pouvez avoir
besoin de peu de lire ce guide.Question 1 est discuté à la section 3, Question 2 de la
section 4 et la question 3 dans les sections 5 et 6.
Par souci de simplicité, nous utilisons des "petits problèmes artificiellement" pour
illustrer les idées.Les articles 2 à 5 de couvrir les idées de base de l'estimation, à
savoir les erreurs-types, intervalles de confiance, et les procédures de tests
d'hypothèses. Les idées sont appliquées dans les sections suivantes. Nous donnons
également notre point de vue sur le rôle des méthodes non-paramétriques et
l'implication de l'exécution de nombreux essais sur l'interprétation de p-valeurs.Ces
deux questions parfois dévier des cours de formation et des discussions sur d'autres
sujets, en raison des opinions bien arrêtées.
Le concept général de la modélisation statistique est introduit dans la dernière section
de ce guide.Ceci fournit un lien vers d'autres guides sur l'analyse, et en particulier à
l'un appelé les méthodes modernes d'analyse.
2.L'application d'idées Estimation
Estimation des caractéristiques d'une population d'intérêt, à partir d'un échantillon est
un objectif fondamental des travaux statistiques, si l'activité est une étude
observationnelle ou de surveillance, une enquête ou d'une expérience.
Estimation ponctuelle survient quand une quantité, calculée à partir de l'échantillon,
est utilisé pour estimer la valeur de la population. Les estimations de l'échantillon de
la population moyenne (  ) Et l'écart type (  ) Sont le plus souvent considérée
comme la moyenne de l'échantillon, x , Et l'écart-type de l'échantillon, s, où
x  x/n
et
s
   x  x  /  n  1
2
respectivement.
Par exemple, considérons l'estimation de la production moyenne de maïs par les
agriculteurs entre (la population de) petits agriculteurs dans une région sélectionnée
agro-écologiques. Pour ce faire, supposons un échantillon de 25 agriculteurs choisis
au hasard et leurs rendements du maïs sont enregistrées. La moyenne des 25 résultant
rendements sont calculés, donnant dire 278 kg / ha. Cette valeur est alors considérée
comme l'estimation de la production de maïs en moyenne par agriculteur dans la
région sélectionnée. Elle estime ce que l'on attendrait d'une exploitation agricole
individuelle.De même, l'écart type d'échantillon est une estimation du montant de la
variabilité dans les rendements de ferme en ferme.
D'autres estimations de la moyenne de population sont possibles. Par exemple, dans
de nombreuses enquêtes les observations ne sont pas échantillonnés avec une
probabilité égale. Dans ce cas, une moyenne pondérée xˆ   wx /  w pourraient être
utilisés, au lieu de x , Avec des poids, w, qui compensent les probabilités inégales.
Proportions peut également être estimée, par exemple on peut souhaiter pour estimer
 la proportion des années où les pluies commencent avant mai ou la proportion de
familles qui possèdent leurs propres terres, ou la proportion de répondants qui
indiquent un soutien pour la co-gestion de la communauté zones forestières au cours
d'une entrevue semi-structurée.Alors p = m / n, peut être utilisé comme l'estimation,
où m est le nombre de personnes qui présentent une réponse positive de la n qui ont
été interrogés.Par exemple, si m = 30, de n = 150 entretiens, puis d'estimer la
proportion que p = 30/150 = 0,2, ou 20%
Comme point de cette estimation est la même que la mesure, x, où x = 1 si une cogestion a été pris en charge et à zéro autrement.L'estimation, p est alors la même x ,
Donné plus tôt, malgré les «données» à l'origine étant "non-numérique".Une grande
partie du matériel qualitatif peut être codée de cette façon.
S'il ya une question contingente, un suivi seulement pour ceux qui «qualifier» en
soutenant la co-gestion, nous pourrions trouver, par exemple, k = 12 des = 30 m qui
sont prêts à jouer un rôle actif dans la coopération -la gestion des réserves
forestières.Arithmétique,
r = k / m = 12/30 = 0,4 a la forme d'une proportion, mais il est en fait le rapport de
deux quantités qui peuvent à la fois changer si un autre échantillon de taille n est pris
de la même manière de la même population.Si la question de suivi est important, il est
important que l'échantillon original est assez grand pour qu'il existe un nombre
suffisant de répondants qui se qualifient (ici il y avait 30) pour la précision requise de
l'étude.
Parfois, notre objectif principal est de ne pas estimer la moyenne. Par exemple, en
recommandant une nouvelle variété de maïs aux agriculteurs, nous souhaitera peutêtre veiller à ce que cela donne un meilleur rendement, par rapport à la variété
existante pendant au moins 90% des agriculteurs. Une façon de procéder est d'abord
pour calculer la différence de rendement pour chaque agriculteur. Si, de l'expérience,
ou à partir de notre échantillon, nous pouvons accepter un modèle normal, c'est à dire
que la population des différences de rendement a approximativement une distribution
normale, alors le point de pourcentage requis se trouve (à partir de tableaux
statistiques standard) à   1.28 , Où  est la différence moyenne et  est l'écart type
des différences.
Dans ce cas, les estimations de  et  sont encore utilisés pour estimer le point de
pourcentage requis, ou tout autre bien.En général, les inconnus) les quantités (  et
 sont appelés les paramètres du modèle.Si un modèle de probabilité différente est
supposé pour la distribution des rendements, les paramètres différents qui serait
estimé. Les formules de changer, mais les idées restent les mêmes.
Si, dans l'exemple ci-dessus, nous n'étions pas préparés à assumer toute la distribution,
l'analyse pourrait encore procéder par simple commande les différences de
rendements pour chaque agriculteur et de trouver la valeur dépassée par 90% des
agriculteurs. Il s'agit d'une solution non-paramétrique à ce problème et nous revenons
à cette approche dans la section 7. En règle générale, cette approche exige des
observations plus qu'un "paramétrique" ou "basé sur un modèle" approche, telle que
celle dans les paragraphes précédents.
Pour référence ultérieure nous expliquer le terme degrés de liberté.C'est à peu près
"des éléments d'information". Par exemple, avec l'échantillon de 25 agriculteurs, a
discuté plus tôt, il ya 25 pièces de l'information. Dans toute étude, il est généralement
important d'avoir de suffisamment d'informations restantes pour estimer la
propagation (résiduelle) de la population. Dans cet exemple simple de la propagation
est estimé par s, et dans la formule, nous avons divisé par (n -1).C'est parce que la
propagation est mesurée sur la moyenne de l'échantillon, x .La moyenne de
l'échantillon est l'une des 25 pièces de l'information, il ya donc n -1 ou 24 degrés de
liberté qui est laissée pour estimer la variabilité.
3.Les erreurs-types
Quand quelque chose est estimé, il est important de donner une mesure de précision de
l'estimation.
La mesure de la précision d'une estimation est appelée l'erreur-type de l'estimation.La
plus petite erreur-type, plus grande est la précision de l'estimation de l'échantillon.
Ainsi une petite erreur standard indique que l'estimation est assez proche de la quantité
de population, il est l'estimation.
A titre d'exemple, supposons un échantillon aléatoire de 12 agriculteurs (n = 12) est
sélectionné et leurs rendements du maïs à l'hectare est mesurée, nous pourrions trouver
x = 1,5 tonnes / ha et s = 0,6 tonnes.Ensuite, l'estimation de  est donnée par x = 1,5
tonnes et son erreur standard (SE) est donnée par la formule
se = s / n Ö.
Dans ce cas, il est de 0,6 /  12 = 0,17 tonnes / ha.
La formule ci-dessus montre que les estimations précises sont soit parce que les
données ont une variabilité de petite taille (c.-à-s est faible) ou parce que nous avons
un grand échantillon, (ie n est grand).
Par exemple, si, au lieu un plus grand
échantillon de 108 agriculteurs ont donné lieu à la moyenne et l'écart type même,
l'erreur type de la moyenne aurait été de 0,6 /  108 = 0,058.De même, si les
rendements ont été moins variable à s = 0,2 tonnes / ha, puis avec 12 agriculteurs, la SE
aurait été de 0,2 /  12 = 0,058.
Souvent, les différences entre les moyens (par exemple les différences de rendement
moyen) sont d'intérêt, plutôt que des moyens eux-mêmes. Dans des situations simples où il ya égalité de réplication des traitements et n répétitions par traitement - l'erreurtype de la différence entre deux moyennes est
s.e.d.  s
 2/ n 
soit environ un an et une fois et demie l'erreur-type de chaque individu moyen.
Les formules de l'erreur-type d'une proportion ou un rapport qui ont été examinées à la
section 2 sont plus compliquées, mais le point sur la précision étant liés à la taille de
l'échantillon et la variabilité des données est générale. Lorsque la conception de l'étude
est complexe, les erreurs types ne peuvent pas être facilement calculée en "main" et le
logiciel approprié est utilisé pour obtenir les erreurs types pour les estimations d'intérêt
tels que les différences de traitement.
Dans cette section, nous avons mentionné à plusieurs reprises que les données sont un
échantillon aléatoire de la population.La raison pour laquelle le hasard est important,
c'est que cela fait partie de la logique des formules d'erreur standard. Cette logique est
que, parce que notre échantillon a été prélevé au hasard, il est l'un des nombreux qui ont
pu être obtenus. Typiquement, chaque échantillon ont donné une moyenne différente,
ou en général une estimation différente. L'erreur-type mesure la dispersion des valeurs
de l'estimation pour les différents échantillons aléatoires.
L'idée de l'erreur-type mesure la précision peut aider les scientifiques à planifier un
exercice de collecte de données. Dans toute étude,  est la, ou résiduelles, la variation
inexpliquée dans les données, et une étude efficace est celle qui tente d'expliquer le plus
de variation possible.En reprenant l'exemple ci-dessus, les agriculteurs peuvent utiliser
trois systèmes de production différents, donnant ainsi deux composantes de variation. Il
existe des différences entre les systèmes de production et il ya des variations entre les
agriculteurs au sein d'un système de production.
Supposons que la variation globale des rendements, en ignorant les différents systèmes
de production, on estime que s = 0,6 tonnes / h alors que le système de l'intérieur de la
variabilité de la production est s = 0,2 tonnes / ha.Une nouvelle enquête pour estimer la
production de maïs moyenne peut soit ignorer le fait qu'il existe différents systèmes de
production et de prendre un échantillon aléatoire simple de l'ensemble de la population,
ou pourrait-il prendre en compte et mener une étude stratifiée. La formule d'erreur
standard montre que, dans ce cas, les agriculteurs sont neuf fois plus nécessaires dans
l'échantillon aléatoire simple, par rapport à l'étude stratifiée, pour obtenir à peu près la
même précision.
Le guide sur la présentation informative des tableaux, graphiques et statistiques décrit
comment l'erreur-type est utilisé dans la communication des résultats.La section
suivante de ce guide, qui se trouve sur les intervalles de confiance, montre comment
l'erreur-type est utilisé pour décrire la précision. La largeur d'un intervalle de
confiance est souvent une simple m ultiples de l'erreur-type.
4.Les intervalles de confiance
L'intervalle de confiance fournit une gamme qui est très probable (souvent 95% ou
99%) pour contenir la quantité réelle de la population, ou un paramètre qui est
estimée. Plus l'intervalle, le plus instructif est le résultat. Il est généralement calculé
en utilisant l'estimation (voir section 2) et son erreur-type (voir Section 3).
Lors de l'échantillonnage d'une population normale, un intervalle de confiance pour la
moyenne  peut être écrite comme
x ± t × s.e.( x )
où tn1 est le point de pourcentage approprié de la distribution t avec (n -1) degrés de
liberté.(Voir section 2 pour une brève explication de degrés de liberté)
L'intervalle de confiance de 95% est couramment utilisé, pour lesquels les valeurs de t
sont respectivement de 2,2, 2,1 et 2,0 pour les 10, 20 et 30 degrés de liberté.Donc,
l'intervalle de confiance de 95% pour la moyenne est habituellement à peu près:
x  2  s.e.( x )
L'exemple de la section 3 concernant 12 agriculteurs ont x = 1,5 tonnes avec soi0,2
L'intervalle de confiance à 95% pour  est donc d'environ 1,16 à 1,84 tonnes / ha, et
ainsi nous pouvons dire que cette gamme est susceptible de contenir la population
moyenne du rendement du maïs.(L'intervalle exact à 95%, que l'on peut obtenir à
partir d'un logiciel statistique, est de 1,12 à 1,88 tonnes / ha.)
Plus généralement, pour presque n'importe quelle estimation, qu'il s'agisse d'un
moyen, ou quelque autre caractéristique, et de presque n'importe quelle distribution de
la population, l'intervalle de confiance de 95% est à peu près
estimate ±2  s.e.(estimate)
Il est donc utile que le logiciel fournit régulièrement des statistiques de l'erreur-type
des estimations. Avec l'exemple de la section 2 de p = 30/150 = 0,2, ou 20% des 150
agriculteurs l'erreur-type est d'environ 0,03, soit 3%, résultant dans un intervalle de
confiance d'environ 0,14 à 0,26, ou 14% à 26% .
Note ce un intervalle de confiance est et n'est pas. Un intervalle de confiance de 95%
ne contient pas 95% des données de l'échantillon qui a généré, très approximativement
l'intervalle x  2 s le ferait.Cela est parfois appelé une prédiction, ou intervalle de
tolérance. Dans les exemples de 12 ou de 108 agriculteurs au-dessus, avec x = 1,5
tonnes et s = 0,6 tonnes, cet intervalle est de 0,3 à 2,7 tonnes / ha et dit que la plupart
des agriculteurs ont des rendements dans cette gamme.
Les utilisateurs confondent souvent l'intervalle de confiance pour la moyenne avec un
intervalle contenant la plupart des données parce que les objectifs de l'étude sont
souvent liés à d'autres paramètres que la moyenne. Cela a été examiné brièvement
dans la section 2.
Dans l'exemple ci-dessus, l'intervalle de confiance de 95% pour la moyenne est de
1,12 à 1,88 tonnes à l'échantillon de 12 agriculteurs.Avec plus de données, cet
intervalle serait plus étroit comme on le voit par rapport à l'intervalle de confiance
pour un échantillon de 108 agriculteurs, où les mêmes calculs que ci-dessus donnent
un intervalle de 95% pour la moyenne de l'ordre de 1,4 à 1,6 tonnes.
Lorsque les hypothèses sur les données peuvent ne pas être tout à fait raison, les
scientifiques peuvent estimer qu'ils doivent abandonner l'intervalle de confiance
ordinaires et utiliser une procédure tout à fait différent. Habituellement, il est plus
constructif au lieu de procéder en utilisant la méthode habituelle, mais en notant que la
couverture réelle de l'intervalle de confiance "95%" peut ne pas être exactement de
95%. Pour la plupart des cas, le chiffre de 95% est utilisé pour fournir une mesure
conventionnelle de l'incertitude sur une estimation, plutôt que la base de la prise de
décision. La communication de l'ampleur approximative de l'incertitude est
généralement plus importante que la valeur exacte.
5.Hypothèse d'essai
5.1 Un exemple simple
Pour de bonnes raisons, de nombreux utilisateurs des tests d'hypothèses difficiles, il ya
un éventail d'idées assez complexes. Nous commençons par un exemple simple.
Un chercheur facilite une ferme procès pour étudier l'effet de l'utilisation de Tephrosia
comme engrais vert pour restauration de la fertilité.Elle revendique l'utilisation du
fumier va accroître les rendements de pois d'Angole, le poids des gousses dire. Dans
le procès pois d'Angole sont cultivées avec et sans le Tephrosia dans deux parcelles
sur chacun des petits exploitants huit champs et les valeurs enregistrées sont les
différences dans les rendements.
Nous vérifier la justesse de cette revendication. Dans ce cas, l '«hypothèse nulle» est
généralement que la moyenne réelle augmentation,  = 0.Par la «vraie» augmentation
moyenne, on entend l'augmentation de la population des agriculteurs dont les huit sont
supposées être un échantillon aléatoire.
L'hypothèse alternative est généralement que l'augmentation moyenne réelle est
différente de zéro.
L'hypothèse nulle est souvent donnée, comme ici, de manière très explicite, avec
l'hypothèse alternative étant vague. Ceci pour deux raisons:
(I)
tests statistiques standard de calculer la probabilité d'obtenir un
échantillon aussi extrême que celui observé, en supposant que
l'hypothèse nulle est vraie - ce calcul doit être fait en utilisant des valeurs
explicites pour le paramètre (s) de la distribution hypothèse nulle;
(II)
Les tests d'hypothèse adopte la même présomption légale d'innocence
jusqu'à preuve du contraire ".C'est que l'hypothèse nulle que  = 0 doit
être conservé, à moins que les valeurs données sont en contradiction
avec elle.
Les manuels scolaires font souvent la distinction entre une face et double face tests.
Dans cet exemple, on pourrait considérer le test de l'hypothèse nulle, que  = 0, contre
la face alternative qui  > 0, sur l'hypothèse qu'il n'y a aucune raison logique que le
fumier de réduire les rendements.Habituellement, un test unilatéral moitiés
simplement le niveau de signification, si ce qui était significatif à 4% avec un test
bilatéral, devient significative à 2% avec une solution de rechange à sens unique.
Comme on le verra ci-dessous, nous ne tenons pas pour les lecteurs de devenir trop
attaché à un niveau de signification particulière, afin de réduire de moitié la valeur
n'est pas assez importante pour les utilisateurs à passer beaucoup de temps sur cette
idée. tests sur une seule face sont aussi rarement trouvés dans des situations réalistes,
telles que celles introduites plus tard dans ce guide.
Exemple 1 :
Supposons que dans l'illustration ci-dessus, les différences de poids des gousses (en
kg) entre les «traités» et «non traitée" parcelles ont été comme suit.
3,0 3,6 5,4  0,4  0,8 4,2 4,8 3,2
Une analyse informatique de ces données pourrait ressembler:
Test of mu = 0 vs mu not = 0
Variable
podweight
Variable
podweight
N
8
(
Mean
2.875
95.0% CI
0.959,
4.791)
StDev
2.290
T
3.55
SE Mean
0.810
P
0.009
Le t-test utilisées pour étudier les hypothèses suit la formule générale:
(Estimation - valeur de l'hypothèse) / SE (estimation)
Ici l'intérêt est la différence moyenne du poids des gousses, de sorte que la statistique
de test est:
t   x  0  /s.e.  x 
soit (2,87 - 0) / 0,81 = 3,55
Par comparaison avec les t 7 distribution, une valeur aussi extrême que 3,55 a une
probabilité de 0,009, soit moins de 1 sur 100, de se produire.Donc, si l'hypothèse nulle
est vraie, alors il ya une chance d'un peu moins de 1 sur 100 d'obtenir l'échantillon qui
a été trouvé. Soit quelque chose a eu lieu peu probable ou l'hypothèse nulle est fausse.
Cet événement est suffisamment peu probable que nous déclarons que le résultat soit
statistiquement significatif et rejeter l'hypothèse nulle.
Dans la section 4 sur les intervalles de confiance, un "t-value" de 2 a été utilisé pour
donner approximative intervalles de confiance à 95%.De même ici, les valeurs
supérieures à 2 sont extrêmes, (à peu près au niveau de signification de 5%) et,
partant, jeter le doute sur la valeur émise.
5.2 comprendre la signification
L'argument classique est que nous devrions aborder ce type de décision basée sur des
tests d'une manière objective, en pré-réglage du niveau de signification, ou p-valeur au
cours de laquelle de rejeter l'hypothèse nulle.Si nous avons travaillé à un niveau de
significativité de 5%, ou p = 0,05, nous rejeter au niveau de 5% et que le rapport p
<0,05.Plutôt que de suivre une telle approche rigoureuse, nous recommandons que les
décisions soient prises sur le motif que la p-valeur est faible.
Exemple 2 :
Nous avons la même hypothèse comme dans l'exemple 1, mais suppose un échantillon
un peu plus variable ont été recueillies. Les valeurs données peuvent être:
3,0 3,6 6.8  1,6  2,0 5,8 7,1 0,3
L'analyse informatique de ces données donne les résultats suivants.
Test of mu = 0 vs mu not = 0
Variable
podweights
Variable
podweights
N
8
(
Mean
2.87
95.0% CI
-0.17,
5.92)
StDev
3.64
SE Mean
1.29
T
2.23
P
0.061
L'erreur-type de la moyenne est maintenant plus grand que dans l'exemple 1, et la
statistique t est de 2,23 avec une probabilité de 0,061.Si le seuil de 5% est utilisé
comme un strict point de coupure, alors nous n'aurions pas rejeter l'hypothèse
nulle.Cela ne signifie pas que nous acceptons l'hypothèse nulle que "true" et les
utilisateurs qui écrivent comme si elle ne font preuve d'une grave faiblesse des
capacités d'interprétation. La probabilité d'obtenir un tel échantillon, dans une
hypothèse de nul effet est encore faible il ya une certaine suggestion d'un effet du
traitement, mais pas suffisamment pour répondre à nos critères au niveau de 5%.
Ici, il ya suffisamment de poids de la preuve pour tirer une conclusion sur la
différence entre les traitements. Si un échantillon de 16 observations recueillies, avec
la même moyenne et écart-type comme ci-dessus, l'erreur-type de la moyenne aurait
été plus faible (à 0,91) et par conséquent le plus élevé t-statistique (à 3,15).Cela aurait
été significative avec un p-valeur de 0,007.
Notez que si la vérification d'hypothèses est entreprise parce qu'une véritable décision
est faite - d'accepter ou de rejeter une nouvelle variété, par exemple - ne pas rejeter
l'hypothèse nulle peut être équivaut à l'acceptation de la variété pré-existants. Ce n'est
pas la même chose que d'accepter que l'hypothèse nulle est correcte.
En règle générale, la recherche scientifique ne comporte pas cette coupe et séchés
alternatives décision. Le but principal de tests de signification peut être simplement
d'établir que l'effet attendu («hypothèse de recherche") peut être discerné et montré de
manière plausible, et ce n'est pas seulement un caprice de l'échantillonnage. Tiny
effets peuvent être importants si les tailles d'échantillon sont très grandes; un effet
significatif doit également être suffisamment grande pour être d'une importance
pratique avant qu'il ne soit «significatif» dans l'usage ordinaire de langue du terme.
Inversement, un effet non significatif ne signifie pas nécessairement que l'effet est
absent. Un résultat non significatif peut également se produire si la taille de
l'échantillon est trop petit ou si il existe une variabilité excessive dans les données.
Dans ces deux cas, l'effet peut être encore présent, mais les données n'est pas en
mesure de fournir des conclusions fondées sur des preuves de son existence.
Ces considérations montrent qu'il est généralement plus informative pour produire un
intervalle de confiance plutôt que de simplement le résultat de décisions et p-valeur
d'un test d'hypothèse.Dans l'exemple 1 ci-dessus, l'intervalle de confiance de 95%
pour la moyenne est donnée par 0,96 à 4,79 selon la méthode de calcul indiqué à la
section 4. Cela indique que l'augmentation moyenne réelle de 0 kg est peu probable,
parce que la confiance de 95% pour la moyenne réelle ne contient pas la valeur émise.
Étant donné une valeur t calculée ou statistique de test, il était de tradition de comparer
cela à 5%, 1%, ou 0,1% de la valeur des tableaux statistiques.Cependant, puisque de
nombreux logiciels statistiques calculer exactement p-valeurs, les résultats peuvent
être accompagnés par des déclarations telles que (p = 0,028), donnant un chiffre précis
numériques pour le degré de valeur extrême de la disparité entre les résultats observés
et les attentes hypothèse nulle.Cette approche est préférable lorsque cela est possible.
Il est plus informatif et plus facile à interpréter.
5,3 idées générales
Parfois, les objectifs de l'étude correspondent à l'hypothèse standard (ou l'importance)
des tests. Les exemples dans la section précédente de fournir un scénario et l'adoption
d'une nouvelle pratique agricole, au lieu d'une norme, est une autre.
Habituellement cependant, le test d'hypothèse est juste une partie préliminaire de
l'analyse. Seuls peuvent rarement les objectifs d'une étude être satisfaits par les tests
de signification standard. Le résultat statistiquement significatif fournir une preuve
objective de quelque chose d'intéressant dans les données. Il sert de «passeport» pour
une analyse plus approfondie des procédures. Les intervalles de confiance ou une
analyse économique sont ensuite utilisés pour décrire la nature et l'importance
pratique des résultats.
Lorsque les résultats sont "pas significatives" cela peut indiquer que plus rien besoin
de faire. Souvent, il permet un modèle plus simple à utiliser. Par exemple, si il n'ya
aucune preuve d'une relation entre le niveau de scolarité et l'adoption d'une nouvelle
technologie innovante, puis l'adoption peut être étudiée en utilisant tous les répondants
ensemble. S'il y avait une relation alors il peut indiquer la nécessité d'une analyse
séparée (c'est à dire un modèle distinct) pour chaque groupe de niveau d'éducation.
De même, si une longue liste de données sur les précipitations est disponible, et il
n'existe aucune preuve d'une tendance (ie des changements climatiques) dans le total
pour la saison, puis l'ensemble du dossier pourrait être utilisé dans une analyse plus
approfondie. S'il y avait une tendance, l'analyse pourrait bien utiliser les données des
dernières années.
5.4 Structure Reconnaissant
Exemple 1 ci-dessus illustre comment un t-test est réalisé en utilisant les différences
entre les parcelles de huit petites exploitations.Les différences ont été utilisées en
raison d'une paire de parcelles étaient disponibles dans chaque exploitation. Cela a
conduit à une paire t-test.
Supposons d'autre part, il y avait 16 fermes, chacune avec une seule parcelle, et huit
ont été sélectionnés pour essayer le "traitement", avec les exploitations restantes
formant le "contrôle". L'analyse consiste alors à la comparaison de deux échantillons
indépendants.
Il est important de reconnaître la structure dans les données lors de l'analyse.
L'exemple ci-dessous montre ce qui est souvent perdue si des résultats vraiment paires
sont traités comme des échantillons indépendants. Voici le x - et y représentent les
valeurs de la résistance à la traction des échantillons de caoutchouc provenant de deux
plantations X et Y, à 10 reprises.L'objectif était de voir si les deux plantations différait
de la qualité de leurs échantillons de caoutchouc.
i
1
2
3
4
5
6
7
8
9
10
Mean
S.D.
xi
174
191
186
199
190
172
182
184
200
177
185.5
9.687
yi
171
189
183
198
187
172
179
183
199
176
183.7
9.764
di
3
2
3
1
3
0
3
1
1
1
1.8
1.135
La différence entre les deux moyens est de 1,8. Pour l'analyse non apparié l'erreurtype de cette différence est calculée en utilisant les écarts-types dans la dernière
colonne, et trouve à 4,3, ce qui conduit à une valeur t non significatif de 0,41.La bonne
stratégie d'une analyse de paires utilise les différences dans le tableau ci-dessus.
L'erreur-type de ces différences est de 0,36, ce qui conduit à une valeur très
significative de 5,0 t.
La raison de cette différence est que l'analyse non apparié comprend l'occasion à
l'occasion variation dans les échantillons dans le calcul des écarts-types utilisés dans
le t-test.Ne pas éliminer cette variabilité des moyens les petites différences mais
systématique entre les paires ne sont pas détectés. L'analyse non apparié est
inutilement faibles où appariement vrai et efficace existe. En général, cette structure
est similaire lié à l'idée de la stratification dans les enquêtes ou de blocage dans les
expériences, et doit être correctement pris en compte dans toute analyse subséquente
des données. Dans les données de séries chronologiques l'appariement est souvent
différentes années. Donc, si les données ci-dessus ont été les totaux des précipitations
saisonnières à partir de deux stations différentes, depuis 10 ans, une analyse couplé
serait encore le cas.
6. Taille de l'échantillon nécessaire,
Une question commune qui se pose aux statisticiens est de savoir comment un
échantillon de grandes sont nécessaires. Pour être en mesure de répondre à ce type de
question, l'information doit être donnée sur (1) comment les petites choses est-il
important de détecter, et (2) comment variable les observations soient pour la réponse
clé (s) d'intérêt. Cette variabilité se traduit généralement par l'écart type résiduel des
données, parce que c'est la variation inexpliquée des données ayant trait à la
précision de nos données.
Ces deux éléments sont nécessaires pour la taille de l'échantillon à évaluer, faute de
quoi un statisticien ne pouvait pas s'attendre à approuver l'étude correspondante
comme étant bien planifié pour atteindre un objectif officiel. Cela ne nie pas
l'importance de l'exploration ou le pilote des études, dont l'objectif est de générer ou
de préciser les hypothèses, ou d'évaluer une méthodologie proposée pour l'avenir.
Une raison de considérer les tests d'hypothèse est que leur simplicité fournit une base
pour l'évaluation de nombreux calculs taille de l'échantillon. Il s'agit de la puissance
du test, c'est à dire la probabilité de réaliser correctement rejeter l'hypothèse nulle
quand elle est fausse. Si votre taille de l'échantillon est suffisante, alors vous aurez
une grande puissance pour détecter une différence que vous considérez comme étant
importantes.
packages statistiques modernes, tels que Minitab, intégrer de nombreux services pour
taille de l'échantillon ou calcul de la puissance. Il existe également des paquets
spécialisés, tels que nQuery. Il est probablement plus facile d'améliorer les «sentir»
pour les calculs de la taille de puissance ou de l'échantillon grâce à l'utilisation
pratique d'un ensemble que d'une démonstration.
A titre d'exemple, prenez le test t apparié pris en compte dans la section 5.3.Supposons
que l'objectif est de choisir la taille de l'échantillon, c'est à dire combien nous avons
besoin d'observations pour une étude similaire. Supposons que la valeur de s sera à
peu près comme avant, qui est d'environ 1,1 et que nous tenons à détecter une
différence moyenne de résistance à la traction de caoutchouc entre les deux
plantations, de plus de 1 unité avec une probabilité de 0,95, soit nous regardons pour
une puissance de 0,95.En outre, supposons que le test doit être effectué au niveau de
5%. Mettre ces conditions dans Minitab donne une taille d'échantillon requise de 18
unités.
Si ce n'est trop grand nombre et à seulement 10 observations sont possibles, nous
pouvons garder notre différence de 1 unité et trouverait alors que la puissance est de
0,73. Ou on peut se demander pour quelle différence la puissance sera de 0,95, ce qui
donne une valeur d'une différence moyenne de 1,4. Ces résultats peuvent ensuite
servir de base à une discussion sur l'étude appropriée doit être effectuée.
Une étude dont la puissance est faible peuvent avoir une capacité à discerner des
résultats significatifs. Il devrait être réexaminée, si elle est assez grande pour établir
les effets importants, ou abandonnée si elle ne peut pas s'attendre à le faire. Une trop
grande étude gaspillage de ressources, tandis que celle qui est trop petit tend aussi à
être inutile, que de telles études donnent souvent des résultats peu concluants. calcul
de la taille d'études sont généralement étroitement liés aux décisions sur la dépense
des ressources, il est donc important de ne pas se tromper.
Le choix de valeurs pour les niveaux de puissance et de l'importance dans le calcul de
taille de l'échantillon est discutable. Réglage du niveau de l'importance aux valeurs
classiques de 5% ou 1%, de quantifier la probabilité de faux rejet de l'hypothèse nulle,
quand elle est vraie. C'est ce qu'on appelle une erreur de type I. La puissance de
détecter une différence minimale significative, si elle existe, quantifie un second type
d'erreur, est convenu d'appeler une erreur de type II, à savoir que une réelle différence
de passer inaperçues. calculs couramment taille de l'échantillon précisent une
puissance de 80%, si 90% est également utilisé.
Lors de l'utilisation des résultats comme dans l'exemple ci-dessus, il est important de
se rappeler que les calculs de la taille de l'échantillon ou de la puissance se rapportent
à une seule hypothèse. La plupart des études ont un certain nombre d'objectifs et de
tests de signification est généralement une petite partie seulement de l'analyse. En
général, le même type de calcul doit donc être fait pour un certain nombre d'analyses
clés pour s'assurer que la taille de l'échantillon est suffisant pour tous les objectifs de
l'étude. Ainsi, la bonne planification d'une étude de la collecte des données exige que
les analyses principales sont prévues et planifiées, avant la collecte des données est
autorisé à démarrer.
7.Des méthodes non paramétriques
La mesure est normalement distribué le point de départ de l'analyse statistique
beaucoup. Il ya des situations où cela semble inquiétant inapproprié. Les mesures
sont peut-être d'une distribution très biais, où une lecture occasionnelle est beaucoup
plus grande que la gamme habituelle et ne peut pas être expliqué ou à prix réduit. Les
résultats peuvent être que des quasi-numérique, par exemple, un score importance
entre 1 et 10 attribuée à plusieurs raisons possibles de pertes de poissons après la
récolte. pêcheurs différentes peuvent attribuer des notes à leur manière, des partitions
d'éviter l'extrême, tandis que d'autres de les utiliser. On peut alors avoir l'assurance
raisonnable quant à l'ordre de classement des notes attribuées par chaque individu,
mais des doutes sur l'application des procédés tels que le calcul de la moyenne ou les
écarts de notes attribuées à chaque raison.
Dans de tels cas il est judicieux d'envisager d'utiliser des méthodes non paramétriques.
Un exemple simple est les données appariées indiqué plus haut dans la section 5. Ici,
les différences dix résistance à la rupture ont été comme suit:
3
2
3
1
3
0
3
1
1
1
Plus tôt, le t-test a été utilisé, mais un non-paramétrique simple test découle du fait
que neuf des dix valeurs sont positives, l'autre étant nulle.S'il n'y avait pas de
différence dans les avant et après la lecture nous nous attendons à environ la moitié à
être positive et l'autre moitié négative, si ce simple résumé des données constitue une
preuve de (p = 0,004, sur un critère formel) contre cette hypothèse.Tout en notant que
les observations sont positives, nulle ou négative est aussi clairement robuste contre
les lectures parfois très grandes - si la première différence était de 30, au lieu de 3,
cela n'affecterait pas l'analyse. Ainsi, les méthodes non paramétriques fournissent
souvent une première étape simple. Ils ajoutent également supporter facilement
expliqué par les conclusions d'une analyse paramétrique.
Nous conseillons la prudence, cependant, au sujet de la sur-utilisation de méthodes
non paramétriques. Une mauvaise compréhension du système de production de
données par le chercheur peut être la vraie raison de données désordre prospectifs.
Une raison courante pour les valeurs apparemment extrêmes, ou la distribution
irrégulière des données, est que la population échantillonnée a été pris comme
homogène, quand il est un agrégat de différentes couches sociales, dans lequel les
observations suivent des schémas différents.
Parfois, les données de problème de procédures de mesure mal conçue, où une
définition plus réfléchie obtenir des données plus fiables. Il est alors préférable de
réfléchir un peu plus sur la structure des données que de supprimer les complications
et l'utilisation d'une analyse qui les ignore.
L'éthique des méthodes non paramétriques provient souvent d'assumer les mesures
elles-mêmes sont imparfaits, ou du moins faible, de sorte que les procédures
d'estimation sont d'une importance secondaire. L'objectif principal de la plupart des
méthodes non paramétriques est sur les formes de tests d'hypothèses, alors que la
disposition à des estimations raisonnables génère habituellement des résultats plus
significatifs et utiles.
La dernière section de ce guide propose un cadre plus général pour l'analyse de
nombreux ensembles de données qui étaient auparavant à traiter en utilisant des
méthodes non-paramétriques.
8. L'analyse de variance
8.1
Introduction
Les problèmes pratiques sont généralement plus compliquée que les illustrations
jusqu'ici. L'analyse de variance montre comment les concepts sont appliqués dans les
grands problèmes.
Comprendre l'idée de l'analyse de la variance est une condition beaucoup plus général
que juste pour analyser les données expérimentales. Le même type de généralisation
est possible pour les données sur les proportions, ou lorsque la régression, ou les
méthodes de séries chronologiques seraient utilisés. Lorsque les données sont des
distributions non-normales, telles que des données d'enquête sur les chiffres ou
données journalières de pluie les jours de pluie, les idées de l'analyse de la variance
sont généralisés et sont alors appelés l'analyse de la déviance. Les concepts clés
restent inchangés.
8.2
One-Way ANOVA
Le t-test pour deux échantillons indépendants montré dans la section 5 généralise à
plus de deux échantillons sous la forme de la simple analyse de l'un des variance.La
comparaison d'une collecte d'échantillons indépendants est décrit comme un
"dispositif complètement aléatoire". Un exemple est le suivant:
Dans une étude de la diversité des espèces dans quatre lacs africains, les données
suivantes ont été recueillies sur le nombre d'espèces différentes capturées dans six
captures de chaque lac.
Lake
Catches
Mean
Tanganyika
Victoria
Malawi
Chilwa
64
78
75
55
72
91
93
66
68
97
78
49
77
82
71
64
56
85
63
70
95
77
76
68
72
85
76
62
2
L'estimation globale de la variance, s , est 100,9. L'erreur-type de la différence entre
deux des moyens ci-dessus est s.e.d. 
 2s / 6  5.80 .
2
L'analyse traditionnelle de la variance (Anova) ressemblera donc à: -
One-way ANOVA: catch versus lake
Analysis of Variance for catch
Source
DF
SS
MS
lake
3
1637
546
Error
20
2018
101
Total
23
3655
F
5.41
P
0.007
La valeur F et p-valeur est analogue à la valeur t et p-valeur dans le t-test pour deux
échantillons indépendants.En effet, le cas de deux échantillons est un cas particulier de
l'ANOVA à un facteur, et le niveau de signification est la même, quel que soit le
critère retenu.
Avec plus de deux groupes, un F-value significative, comme en l'espèce, indique qu'il
ya une différence quelque part entre les groupes considérés, mais ne dit pas où - ce
n'est pas un résultat final d'une enquête scientifique.L'analyse a ensuite continue
généralement par un examen des moyens de traitement qui sont affichées avec les
données ci-dessus. Presque toujours une analyse sensée cherchera également à
«contrastes» dont la forme dépend des objectifs de l'étude. Par exemple, si les lacs
dans le secteur de la Tanzanie ont été à comparer avec les lacs Malawi, nous avons pu
voir la différence dans la moyenne des deux premiers traitements, par rapport à la
moyenne de la troisième et quatrième. Si cette différence était statistiquement
significative, alors l'ampleur de cette différence, avec son erreur standard, sera discuté
dans le rapport sur les résultats.
Dans l'analyse de variance un «non significatifs» F-valeur peut indiquer qu'il n'ya
aucun effet.Il faut prendre soin que l'ensemble F-valeur ne cache pas une ou plusieurs
des différences individuelles importantes "diluée" par plusieurs très-différents groupes
non.Ce n'est pas un problème grave, la solution consiste à éviter d'être trop simpliste
dans l'interprétation. Ainsi encore les chercheurs devraient éviter la dépendance
excessive sur une quelconque "cut-off" p-valeur, comme 5%.
8.3
Tests de comparaisons multiples
Ces tests sont souvent connus par leur auteur et notamment le test de Dunnett,
Neumann Keuls, etc Elles concernent les méthodes de contrôle de différences entre
les moyennes, qui exigent des analyses de type ANOVA. Certains scientifiques les
utiliser régulièrement tandis que d'autres d'éviter leur utilisation.
Nos points de vue sont peut-être clairement de la section 5.2. Les tests d'hypothèse est
habituellement juste une étape préliminaire, et plus loin l'analyse, souvent sur les
moyens de traitement, est directement liée aux objectifs énoncés de l'étude. Cela
comprend habituellement les contrastes particuliers, pour étudier les différences
d'importance. Nous ne recommandons pas les méthodes de comparaisons multiples,
car ils ne sont généralement pas liés aux objectifs de la recherche.
Le cas pour les tests de comparaisons multiples repose sur le danger de la conduite de
nombreux tests de signification sur un ensemble de moyens, par exemple en
comparant la plus grande avec le plus petit, sans ajuster le test pour le fait que nous
avons délibérément choisi comme étant le plus grand et plus petit. L'affaire est claire,
mais rien à voir avec nous dans la plupart des analyses, car nous ne voulons pas faire
beaucoup de tests. Nous voulons, au lieu d'enquêter sur la taille des différences par
rapport à leur importance pratique.
Pour prendre un domaine d'application, que des essais sur le terrain agricole, alors
habituellement la structure de traitement seront bien définies, avec la structure
factorielle étant les plus courantes. En pareil cas les procédures de comparaisons
multiples sont généralement clairement pas pertinent. Le seul type de facteur où les
méthodes de comparaison multiple pourrait être envisagée serait de comparaison
variété peut-être (de maïs dire) où l'on pourrait souhaiter présenter les résultats dans
l'ordre décroissant des rendements moyens. Même ici, il est souvent beaucoup plus
utile d'essayer de comprendre les différences de rendement en fonction de la durée de
la saison, ou le pays d'origine, etc des variétés, que de suggérer une série de tests. Le
seul cas pour les tests serait de regrouper les variétés dans des ensembles qui se
comportent de façon similaire. Certains pourraient utiliser des méthodes de
comparaisons multiples pour cela. Nous proposons une analyse typologique, qui a
l'avantage supplémentaire de pouvoir être utilisé sur de nombreuses variables
ensemble. Même ici, l'analyse cluster devrait normalement faire partie d'une étude
préliminaire, qui sera suivie par des tentatives de comprendre les raisons pour les
variétés étant dans un cluster ou d'une autre.
Notre principale préoccupation est que les utilisateurs pourraient être tentés d'utiliser
une méthode de comparaison multiple au lieu d'une analyse plus réfléchie, et par
conséquent ne manquez pas l'interprétation des données d'une manière qui sont
nécessaires, compte tenu des objectifs de l'étude. Tant que vous n'avez pas tomber
dans ce piège, puis faire les deux. Nous prévoyons que lorsque vous communiquer les
résultats en ce qui concerne les objectifs, vous n'aurez pas besoin d'utiliser aucun des
résultats des méthodes de comparaisons multiples. Ainsi, ils peuvent alors être
supprimé à partir des tableaux dans le rapport!
Ce problème est également abordé dans le guide informatif Présentation de
graphiques, tableaux et statistiques parce que certains scientifiques peuvent avoir des
symptômes de sevrage si elles ne présentent pas de tableaux avec une collection de
lettres à côté des moyens correspondants.
9.Un cadre général
Les exemples dans ce guide ont toutes été simple, de se concentrer sur les concepts.
Ces concepts comprennent:
 Les données sont (ou sont supposés être) un échantillon de certaines
populations, et nous tenons à faire des inférences sur la population.
 L'échantillon est donc utilisée pour estimer les propriétés (paramètres) de la
population qui correspondent aux objectifs de l'étude.
 L'erreur-type de l'estimation est la mesure de précision.Parfois, l'erreur-type est
lui-même signalé et parfois un intervalle de confiance pour le paramètre
inconnu est donnée.
 Hypothèse (importance) des tests sont souvent utilisés pour déterminer si les
différences entre les paramètres peuvent être détectés.Cette phase de test est
souvent la première étape dans la partie conclusion de l'analyse.
Tous les exemples dans ce guide peut être écrit d'une manière générale que:
data = motif (ou modèle) + valeur résiduelle
C'est le modèle choisi pour la population. Par exemple, le problème de la résistance
du caoutchouc peut être écrite comme:
Force = Occasion effet + + Plantation effet résiduel
L'objectif était d'étudier la différence entre les deux plantations, et l'effet était évident.
Mais nous avons aussi vu dans la section 5.3, que si l'effet est parfois omis dans le
modèle, c'est à dire avec le modèle plus simple:
Force = + Plantation effet résiduel
alors l'effet de plantation ne peut pas être détecté. Cela montre que l '«effet
d'occasion" est nécessaire dans le modèle, même si l'étude de la taille de l'effet
d'occasion pourrait ne pas avoir été l'un de nos objectifs.
Le modèle ci-dessus est le même si il ya plus de deux plantations, comme dans la
section 7 et s'appliquerait toujours si les données ne sont pas «équilibré», c'est à dire si
les plantations ne pas envoyer d'échantillons en toute occasion. Avec des programmes
de statistiques standard les conséquences peuvent encore être apportées.
Plus tôt, une limitation est que les données devaient provenir d'une distribution qui a
été à peu près normale, mais ce n'est plus le cas. méthodes paramétriques sont
maintenant très flexible face aux sages de données, même lorsqu'elles ne sont pas
normalement distribuées, ce qui offre souvent un cadre attractif pour l'analyse des
données que les tests simples qui sont souvent encore en cours d'utilisation. Par
exemple, au lieu d'utiliser un simple test du chi carré pour examiner les relations dans
un tableau de contingence à double sens, l'utilisation de modèles log-linéaire fournit
un cadre plus général et utilisables, pour des inférences au sujet des proportions. Ce
cadre général peut être utilisé avec les deux tableaux à double sens (comme un test du
chi carré) et avec plus de tableaux compliqués de chiffres.
Dans ce contexte général, les tests de signification sont souvent utilisés pour fournir
des conseils sur la façon dont un modèle complexe est nécessaire. Puis, en utilisant le
modèle choisi, nous estimons, comme ci-dessus, les propriétés qui correspondent aux
objectifs, et donner une mesure de précision pour indiquer notre niveau de confiance
dans la communication des résultats.
Le Centre des Services Statistiques (SSC) est rattaché au Département de Statistiques
Appliquées de l'Université de Reading, Royaume-Uni, et assure les formations et
donne conseils, dans un but non-lucratif pour les clients en dehors de l'Université.
Ces guides statistiques ont été développés dans le cadre d'un contrat avec le DFID
pour donner des orientations et soutenir le personnel de recherche travaillant sur les
ressources naturelles des projets DFID.
Les titres disponibles sont listés ci-dessous.



















Statistical Guidelines for Natural Resources Projects
On-Farm Trials – Some Biometric Guidelines
Data Management Guidelines for Experimental Projects
Guidelines for Planning Effective Surveys
Project Data Archiving – Lessons from a Case Study
Informative Presentation of Tables, Graphs and Statistics
Concepts Underlying the Design of Experiments
One Animal per Farm?
Disciplined Use of Spreadsheets for Data Entry
The Role of a Database Package for Research Projects
Excel for Statistics: Tips and Warnings
The Statistical Background to ANOVA
Moving on from MSTAT (to Genstat)
Some Basic Ideas of Sampling
Modern Methods of Analysis
Confidence & Significance: Key Concepts of Inferential Statistics
Modern Approaches to the Analysis of Experimental Data
Approaches to the Analysis of Survey Data
Mixed Models and Multilevel Data Structures in Agriculture
Les guides sont disponibles sous forme imprimée et sous forme Electronique. Pour
obtenir des exemplaires ou pour de plus amples renseignements au sujet du SSC, s'il
vous plaît utiliser les coordonnées ci-dessous.
Statistical Services Centre,
University of Reading
P.O. Box 240, Reading, RG6 6FN United Kingdom
tel: SSC Administration
+44 118 378 8025
fax:
+44 118 378 8458
e-mail:
[email protected]
web:
http://www.reading.ac.uk/ssc/
Téléchargement