Université Joseph Fourier, Grenoble I
Licence Sciences et Technologies 2eannée
STA230 : Méthodes Statistiques pour la Biologie
Cours de Statistique
http ://ljk.imag.fr/membres/Bernard.Ycart/STA230/
Table des matières
1 Données et Modèles 3
1.1 Données unidimensionnelles . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Échantillons............................. 3
1.1.2 Moyenneempirique......................... 6
1.1.3 Variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Expériences aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 Événements............................. 9
1.2.2 Axiomes des probabilités . . . . . . . . . . . . . . . . . . . . . . 10
1.2.3 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . 13
1.3 Variablesaléatoires............................. 15
1.3.1 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . 15
1.3.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . 16
1.3.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . 19
1.3.4 Fonction de répartition et fonction quantile . . . . . . . . . . . . 20
1.3.5 Espérance et variance . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.6 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.4 Distribution empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4.1 Statistique et probabilités . . . . . . . . . . . . . . . . . . . . . 28
1.4.2 Quantiles .............................. 30
1.4.3 Modèles probabilistes . . . . . . . . . . . . . . . . . . . . . . . . 32
2 Estimation paramétrique 36
2.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.1 Modèles paramétrés . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.2 Estimateurs et estimations . . . . . . . . . . . . . . . . . . . . . 38
2.1.3 Qualités d’un estimateur . . . . . . . . . . . . . . . . . . . . . . 39
2.1.4 Exemples d’estimateurs . . . . . . . . . . . . . . . . . . . . . . . 42
2.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.1 Intervalles de dispersion . . . . . . . . . . . . . . . . . . . . . . 45
STA230 Cours de Statistique UJF Grenoble
2.2.2 Dénitions.............................. 48
2.2.3 Echantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . 51
2.2.4 Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . 53
3 Tests statistiques 56
3.1 Statistiquesdetest ............................. 56
3.1.1 Modèles probabilistes réfutables . . . . . . . . . . . . . . . . . . 56
3.1.2 Règlesdedécision.......................... 58
3.1.3 Seuiletp-valeur........................... 61
3.1.4 Risques et puissance . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Tests paramétriques classiques . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.1 Échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.2 Test sur la moyenne d’un grand échantillon . . . . . . . . . . . . 65
3.2.3 Test sur la valeur d’un quantile . . . . . . . . . . . . . . . . . . 66
3.2.4 Échantillons appariés . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3 Comparaison d’échantillons indépendants . . . . . . . . . . . . . . . . . 68
3.3.1 TestdeFisher............................ 68
3.3.2 TestdeStudent........................... 69
3.3.3 Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . 70
3.4 Testdajustement.............................. 70
3.4.1 Distance du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . 70
3.4.2 Pratiquedutest........................... 72
3.5 Testdindépendance ............................ 74
3.5.1 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . 74
3.5.2 Khi-deux de contingence . . . . . . . . . . . . . . . . . . . . . . 75
4 Régression linéaire 78
4.1 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.1.1 Représentations graphiques . . . . . . . . . . . . . . . . . . . . 78
4.1.2 Covariance.............................. 79
4.1.3 Droite de régression linéaire . . . . . . . . . . . . . . . . . . . . 81
4.2 Modèlelinéaire ............................... 85
4.2.1 Intervalles de confiance et de prédiction . . . . . . . . . . . . . . 85
4.2.2 Test de pertinence de la régression . . . . . . . . . . . . . . . . 88
4.2.3 Étudedesrésidus.......................... 89
2
STA230 Cours de Statistique UJF Grenoble
1 Données et Modèles
Ce chapitre présente le vocabulaire de la statistique descriptive sur les données uni-
dimensionelles. La notion de modèle que l’on peut ajuster à un caractère statistique est
assez subtile, et de multiples exemples seront fournis pour aider à sa compréhension.
Elle est pourtant essentielle, même si nous ne mettrons l’accent que sur quelques mo-
dèles de base. Les deux plus importants sont le modèle binomial et le modèle gaussien,
qui devront absolument être compris.
1.1 Données unidimensionnelles
1.1.1 Échantillons
À la base de toute étude statistique, il y a une population, formée d’individus sur
lesquels on observe des caractères. Pour fixer les idées, il est plus facile de penser en
termes de population humaine. Les individus sont des personnes, et les caractères ob-
servés peuvent être morphologiques (taille, poids, couleur des yeux), physiologiques
(groupe sanguin, numération globulaire, taux de cholestérol) ou psychologiques (ré-
actions à des tests ou réponses à une enquête d’opinion). Même si nous choisirons
prioritairement nos exemples dans les caractères humains, il faut garder à l’esprit des
notions de population et de caractère plus générales. Voici quelques exemples.
Population Caractère
Eléments chimiques Nombre d’isotopes
Galaxies Nombre d’étoiles
Etoiles Magnitude
Chromosomes Nombre de gènes
Gènes Nombre de bases protéiques
Villes Taux d’imposition
Pays Produit intérieur brut
Films Recettes
Mois de l’année Montant des exportations
Un caractère est dit :
qualitatif, si les valeurs ne peuvent pas être ordonnées (groupe sanguin, couleur
des yeux, vote pour un candidat).
ordinal, si les valeurs peuvent seulement être ordonnées : leurs différences ne sont
pas interprétables (opinions exprimées sur une échelle de valeurs)
quantitatif, quand les valeurs sont numériques (mesures physiques, physiologiques,
économiques).
Les valeurs que peut prendre un caractère s’appellent les modalités.
Pour des raisons de facilité de traitement informatique ou mathématique, on cherche
à se ramener à des caractères quantitatifs par un codage. Si le caractère initial est quali-
tatif, le codage sera souvent binaire. Le cas le plus simple est celui d’un référendum, où
3
STA230 Cours de Statistique UJF Grenoble
il n’y a que deux modalités codées 0et 1. Pour un nombre quelconque mde modalités,
on pourra les coder par un vecteur de mbooléens : si la valeur observée sur un individu
est l, le vecteur associé à cet individu a toutes ses coordonnées nulles sauf la l-ième
qui vaut 1. Dans le cas des caractères ordinaux, on effectue souvent le codage sur les
premiers entiers. Il faut se souvenir que le codage est arbitraire et que les résultats
numériques que l’on obtient après codage peuvent dépendre de celui-ci. Des techniques
spécifiques permettent de traiter plus particulièrement les caractères qualitatifs et or-
dinaux. Nous nous limiterons ici pour l’essentiel aux caractères quantitatifs.
La statistique intervient quand il est impossible ou inutile d’observer un caractère
sur l’ensemble de la population. On l’observe alors sur une sous-population de taille
réduite, en espérant tirer de l’observation des conclusions généralisables à toute la po-
pulation. Si les données d’un caractère quantitatif sont recueillies sur nindividus, le
résultat est un n-uplet de nombres, entiers ou décimaux, (x1, . . . , xn), que l’on appelle
échantillon ou série statistique, de taille n. On réserve plutôt le terme d’échantillon
au résultat de nexpériences menées indépendamment les unes des autres, et dans des
conditions identiques (lancers de dés, mesure du poids de nnouveaux-nés,. . . ). On
appellera plutôt série statistique le résultat de nexpériences qui ne sont pas inter-
changeables. Le cas le plus fréquent est celui où la population est constituée d’instants
successifs (relevés quotidiens de températures, chiffres mensuels du chômage,. . . ). On
parle alors de série chronologique (figure 1).
0 52 104 156 208 260
0
100
200
300
400
500
600
700
800
900
.
Milliers de cas
Semaines
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+++
+
+
+
+++
++
+
+++
++
+
+
++++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++++
+
+
++
+
+
+
+
+
++++
+
++
+++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
++
++
+
+++
+
+
+
+
+++
+
+
++
+
+
+
+
+
+
+
Fig. 1 – Série chronologique : cas de grippe en France par semaine sur 5 ans.
On distingue souvent les caractères discrets (ceux qui ne prennent que peu de moda-
lités distinctes) des caractères continus (pour lesquels toutes les valeurs observées sont
a priori différentes). La frontière entre continu et discret est beaucoup moins claire en
pratique qu’en théorie. Tout recueil de données se fait avec une certaine précision, et
dans une certaine unité. Si une taille est mesurée avec une précision de l’ordre du cen-
4
STA230 Cours de Statistique UJF Grenoble
timètre, tout chiffre correspondant à une quantité inférieure au centimètre ne contient
aucune information et doit être éliminé. Cela signifie que la taille en centimètres est une
valeur entière, donc un caractère discret, même si on le modélise par une loi normale qui
est une loi continue. D’autre part, différentes techniques statistiques (histogrammes,
distance du chi-deux) imposent de regrouper les données en classes, ce qui revient à les
rendre discrètes, les nouvelles modalités étant les différentes classes.
0 10 20 30 40 50 60 70 80 90 100
100
102
104
106
108
110
112
114
116
118
120
122
124
126
128
130 Tailles
Individus
+
++
++
+
++
+
+
+
+
++
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
Fig. 2 – Echantillon de 100 tailles d’enfants de 6 ans, en centimètres.
Une fois recueilli, l’échantillon (x1, . . . , xn)se présente comme une liste de nombres
peu lisible, dont la principale caractéristique est une plus ou moins grande variabilité. Le
traitement statistique consiste à étudier cette variabilité, pour en extraire l’information
qu’elle contient, à savoir ce qui est généralisable à l’ensemble de la population. Les
techniques de statistique descriptive auront pour but de compresser l’échantillon, de le
résumer par des quantités calculées et des représentations graphiques, afin d’extraire
l’information.
On ne traite pas un échantillon sans avoir une question précise à lui poser. Étant
donné un échantillon de tailles de filles de 18 ans, le traitement ne sera pas le même selon
que l’on sera un nutritionniste qui cherche à étudier l’influence du régime alimentaire
sur la croissance, ou un fabriquant de vêtements qui fait une étude de marché.
Ne confondez pas :
les statistiques comme ensemble de données chiffrées sur un phénomène variable
(les statistiques du commerce extérieur, du chômage).
la statistique en tant que discipline scientifique dont le but est d’extraire de
l’information d’un échantillon en vue d’une prédiction ou d’une décision.
une statistique calculée à partir d’un échantillon comme résumé de ses propriétés
(moyenne, variance. . . ).
5
1 / 90 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !