Statistiques descriptives: Cours, Exercices et Corrections (Python, Power BI)

Telechargé par Modibo Tembely
Statistiques descriptives
Julien Chardon
https://www.linkedin.com/in/julien-chardon-099430247/
Cours 2
Variable qualitative ....................................... 2
Variable quantitative ...................................... 30
Couple mixte de variables .................................. 93
Couple de variables qualitatives .............................. 93
Couple de variables quantitatives ............................. 93
Énoncé des exercices 128
Variable qualitative ....................................... 128
Variable quantitative ...................................... 130
Couple mixte de variables .................................. 137
Couple de variables qualitatives .............................. 137
Couple de variables quantitatives ............................. 137
Correction des exercices 142
Cours
Définitions :
(1) On appelle statistique un réel calculé à partir des données.
(2) On appelle statistique absolue une statistique qui s’interprète de façon indépendante des autres.
(3) On appelle statistique relative une statistique qui s’interprète de façon dépendante d’une autre.
Autrement dit, une statistique relative est un pourcentage.
(4) On appelle statistique descriptive une statistique qui donne une description synthétique des
données.
(5) On appelle estimation ponctuelle d’un réel une estimation de ce réel par un réel.
(6) On appelle estimation par intervalle d’un réel une estimation de ce réel par un intervalle.
Remarques :
(1) On considère une statistique relative comme une statistique, car on peut l’écrire sous forme
réelle (sous forme de coefficient multiplicateur) en enlevant le % et en divisant par 100 (56.3% peut
aussi s’écrire 0.563). La forme réelle est utilisée pour le calcul, alors que la forme pourcentage est
utilisée pour la visualisation.
(2) Les statistiques descriptives sont nécessaires et souvent suffisantes pour l’analyse de données.
Variable qualitative
Définitions :
(1) On appelle variable qualitative une variable dont les valeurs sont des “qualités”. Ces valeurs
sont appelées modalités.
(2) On appelle variable nominale une variable qualitative dont les modalités ne sont pas ordonnées.
(3) On appelle variable ordinale une variable qualitative dont les modalités sont ordonnées.
Exemples :
(1) La couleur d’un T-shirt monochrome, la classe d’un élève au collège et le nom d’une ville sont
des variables qualitatives. Voici respectivement une modalité de ces variables qualitatives : Bleu,
Sixième et Lyon.
(2) La couleur d’un T-shirt monochrome est une variable nominale.
(3) La classe d’un élève au collège (Sixième, Cinquième, Quatrième, Troisième) est une variable
ordinale.
Cas population
On se place dans le cas population. Soient
X
une variable qualitative dont les observations sont
(x1, ..., xN)et Ul’ensemble des modalités observées de Xdont le cardinal est k.
2
Variable constante
Définition : On dit que Xest constante si et seulement si k= 1.
Propriétés :(1) Xconstante ⇔ ∃uUiJ1, NKxi=u
(2) Xconstante ⇔ ∀i, j J1, NKxi=xj
Preuves :
(1) On suppose que Xest constante. Puisque k= 1, il existe uUtelle que :
iJ1, NKxi=u
On suppose qu’il existe uUtelle que :
iJ1, NKxi=u
Alors k= 1. Autrement dit, Xest constante.
(2) On suppose que Xest constante. Il existe donc uUtelle que :
iJ1, NKxi=u
Donc, pour tout i, j J1, NK:
xi=u=xj
On suppose que :
i, j J1, NKxi=xj
Soit jJ1, NK. On pose u=xjU. Alors :
iJ1, NKxi=xj=u
Autrement dit, Xest constante.
Remarque : Même en disposant des observations de
X
, on peut ne pas observer toutes ses
modalités. Par exemple, un site marchand ne dispose probablement pas d’un client de chaque
ville française dans son historique des ventes. Même si c’est le cas, qu’en est-il des autres villes ?
Un client peut très bien habiter à New York, Londres, Rome, . . . Il ne faut donc pas confondre
l’ensemble des modalités (qui peut être grand) et l’ensemble des modalités observées (qui peut être
petit). Ainsi,
X
peut être constante et avoir plus d’un élément dans l’ensemble de ses modalités.
Exemple : La couleur de vos yeux est une variable constante.
Effectif
Définition : Soient uUet Ala variable dont les observations sont (a1, ..., aN)où :
iJ1, NKai=
1si xi=u
0sinon
3
On appelle effectif de ula statistique descriptive absolue η(u):
η(u) =
N
X
i=1
ai
Propriétés :(1) uU η(u)J1, NK
(2) X
uU
η(u) = N
(3) Xconstante ⇔ ∃uU η(u) = N
Preuves :
(1) Tout d’abord, comme uest une modalité observée de X:
jJ1, NKxj=u
Donc :
jJ1, NKaj= 1
Donc :
η(u) =
N
X
i=1
ai
=aj+X
iJ1,NK\{j}
ai
= 1 + X
iJ1,NK\{j}
ai
1 + X
iJ1,NK\{j}
0ai0
1
Ensuite :
η(u) =
N
X
i=1
ai
N
X
i=1
1ai1
N
Enfin, pour tout iJ1, NK, on a ai∈ {0,1}. Ainsi, η(u)étant la somme des ai, c’est un entier.
(2) Supposons par l’absurde que : X
uU
η(u)̸=N
Si : X
uU
η(u)< N
4
Alors, il y a au moins une observation de
X
qui n’est pas une de ses modalités, ce qui est absurde.
Si : X
uU
η(u)> N
Alors, il y a au moins N+ 1 observations de X, ce qui est absurde.
(3) On suppose que Xest constante. Il existe donc uUtelle que :
iJ1, NKxi=u
Ainsi :
η(u) =
N
X
i=1
ai=
N
X
i=1
1 = N
Supposons qu’il existe uUtelle que η(u) = N. Donc :
iJ1, NKai= 1
Donc :
iJ1, NKxi=u
Autrement dit, Xest constante.
Remarque : L’effectif d’une modalité observée correspond au nombre de fois où elle apparaît dans
les observations de la variable qualitative associée.
Exemple : Soit
Catégorie
la variable qui représente la catégorie de chaque article acheté par un
client dans un supermarché un jour donné. Les observations sont :
(Alimentation, Vêtement, Alimentation, Alimentation, Hygiène, Loisir, Hygiène)
L’ensemble des modalités observées est {Alimentation, Vêtement, Hygiène, Loisir}. On a :
η(Alimentation)=1+0+1+1+0+0+0=3
Power BI
On charge les données dans Power BI. On sélectionne le visuel “Matrice”, on place “Catégorie”
dans “Lignes” et “Nombre de Catégorie” dans “Valeurs” (on place “Catégorie” dans “Valeurs” et on
résume par “Nombre”). On va dans “Filtres”, “Filtres sur ce visuel”, “Catégorie” et on sélectionne
“Alimentation”. On enlève la ligne du total (“Mettre en forme votre visuel” puis “Sous-totaux des
lignes”).
Pour des raisons pratiques, on conserve le nom “Nombre de Catégorie” au lieu de “Effectif.
Python
On charge les librairies, fonctions et données :
5
1 / 184 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!