Vocabulaire et notations - Jey - la construction de notre maison

Téléchargement

Vocabulaire et notations

 Modalité : valeur

 Ensemble des variables observées (I)

 Les individus (n)

 Ensemble des modalités observables (Mx)

 La variable (X)

 Taille de i (X(i))

 Effectif d’une modalité : c’est le nombre d’individus chez qui on a observé cette modalité

 Fréquence d’une modalité : c’est la proportion des individus chez qui on a observé cette modalité

 Tableau de distribution : tableau dans lequel on indique les diverses modalités observables (en réalité, il

arrive assez fréquemment qu’on n’indique que les modalités observées effectivement. Cela dépend des

objectifs de l’analyse : on indique ce dont on a ou aura besoin)

 Caractéristiques de centralité ou de localisation : nombres résumés de la collection d’observations à

l’aide desquels on tente de répondre à deux questions : où se situe la distribution sur l’axe des modalités ?

Quel est le centre de cette distribution ?

- Le mode (centre de concentration de la collection des observations)

- La médiane (centre de position de la collection des observations)

- La moyenne arithmétique (centre d’équilibre de la collection des observations)

 Mode (Mo) : valeur (ou modalité) sur laquelle ou autour de laquelle la concentration (densité) des

observations est la plus forte. En d’autres mots, modalité qui a le plus grand effectif ou la plus grande

fréquence. Si d’autres modalités ont un effectif très proche, il est avisé de le signaler.

 Médiane (quantile d’ordre ½) (Me) : valeur (ou modalité) qui, dans un rangement ordinal des

observations, a la moitié des observations à sa gauche et l’autre moitié à sa droite. Néanmoins, il est souvent

difficile d’avoir très précisément la moitié des observations de part et d’autre… on fait pour un mieux et on

précise alors si c’est médian ou quasi médian.

 Moyenne (arithmétique) (n(x)) : centre d’équilibre de la collection d’observations. C’est la valeur par

rapport à laquelle les écarts des observations se compensent tous, c’est-à-dire qu’ils s’annulent.

 Caractéristiques de dispersion : tentatives de donner un indicateur numérique de la dispersion d’une

distribution. On souhaite qu’il soit nul si la dispersion est nulle, et qu’il soit d’autant plus grand que la

dispersion est grande. Il y a plusieurs manières de procéder, qui s’articulent autour de deux idées : (1) la

dispersion comme étendue de la distribution et (2) la dispersion comme éloignement moyen entre les

observations et le centre de la distribution.

Dans la première catégorie : l’étendue et l’étendue interquartile

Dans la deuxième catégorie : l’écart absolu moyen et l’écart type qui se calcule en prenant la racine carrée

de la variance.

 L’étendue (ETEx) : est l’écart entre la plus grande observation et la plus petite

 L’étendue interquartile (EIQx) : est l’écart entre le premier quartile et le troisième quartile

 L’écart absolu moyen (EAMx) : moyenne des écarts (en grandeur absolue) entre chaque observation et la

moyenne des n observations.

 L’écart type (x) : racine carrée de la variance, et la variance est la moyenne des carrés des écarts (en

grandeur absolue) entre chaque observation et la moyenne des n observations.

 La valeur typique : pour un groupe constate 600 filles et 100 garçons, la valeur typique sera la fille

(souvent la valeur typique sera le mode).

Eléments généraux

1. Collecter les observations

1.1. Qu’est-ce qu’on désire observer ?

Le premier problème de l’observation c’est de savoir ce que l’on observe (il faut être précis)





1) On observe des individus dans une population

- Qui sont les individus de la population (un recensement) ?

- Qui sont les individus observés (toute la population ou juste une partie, dans tel cas on parlera alors

d’échantillon ?)

2) On observe un ou plusieurs caractères (variables) de ces individus

- La variable doit être définie sans ambiguïté

- Sa mesure doit être techniquement correcte :

- !"#

- $

- 

- $

- 

1.2. Comment fait-on pour collecter les observations ?

Il est important que la méthode d’observation ne modifie pas le résultat de l’observation. Il faut garder l’œil

critique et ne pas oublier le but ultime : obtenir des informations à propos de la population.

1.3. Le protocole de la collecte des observations

Dire l’essentiel des conditions de la collecte des observations :

- Qui (quels sont les individus qui compose l’échantillon) ?

- Quoi (quelles sont les modalités observées) ?

- Comment (quelle est l’échelle de mesure) ?

Si l’ensemble des valeurs est trop grand, on procèdera à un regroupement en classes.

1.3.1. Types de variables, échelle de mesure, axes des modalités et structures de l’ensemble des modalités

Variable nominale (échelle nominale) : pas d’ordre vu qu’il ne s’agit pas de données numériques, on parle

alors de modalités.



Variable ordinale (échelle ordinale) : une échelle ordinale a une nature continue, on parle de différents

échelons.

Divisible à l’infini dont les modalités observables sont des catégories pour lesquelles il y a un ordre. On

peut les nommer avec des chiffres, mais ce n’est qu’une codification

#%%&

Variable numérique relative (échelle d’intervalles) : qui prend du sens par rapport à un point, le zéro.

On parle de valeurs discrètes (isolées les une des autres et non divisibles, exemple, le nombre d’enfants) ou

continues (divisibles à l’infini, exemple : mesure physiques, le temps pour courir le 100m)

#$

Variable numérique absolue (échelle de rapports) : il n’y a pas de convention sur le niveau zéro

On parle de valeurs discrètes ou continues



Les variables, graphiques et caractéristiques synthétiques

1. LA VARIABLE NOMINALE

Une variable nominale ne peut être ni ordonnée, ni classée (exemple : rouge, vert, bleu,…)

1.1. Tableau de distribution

Titre du tableau

Modalités (xj)

x1 x2 x3 Total

Effectifs (nj)

Fréquences (fj)

f1 n2

f2 n3

f3 n

1 (ou 100%)

La toute première chose à faire est indiquer le titre du tableau, c’est-à-dire de préciser quels sont les individus

observés, et selon quel caractère ils se distribuent.

Un tableau de distribution qui n’indique que les effectifs s’appelle un "tableau d’effectifs", tandis qu’un tableau

de distribution qui n’indique que les fréquences s’appelle "tableau de distribution des fréquences".

1.2. Graphiques

Le diagramme en bâtonnets

Le diagramme en bâtonnets est quasiment une traduction

graphique immédiate du tableau de distribution d’une

variable : sur un axe horizontal, on repère les modalités, et

au dessus de chaque modalité, on trace verticalement un

bâtonnet dont la longueur est proportionnelle à l’effectif

(ou à la fréquence) de la modalité.

Règles : indiquer le titre du graphique (son type), dire

quels sont les individus observés, et selon quel caractère ils

se distribuent

Le diagramme en barres verticales

Construction presque identique à celle du diagramme en

bâtonnets : les colonnes sont comme des bâtonnets qui

auraient pris de l’épaisseur.

NB : d’autres graphiques proches peuvent être utilisés tels

que les diagrammes en barres horizontale (même principe,

mais dans l’autre sens), les diagrammes linéaires (rectangle

divisé en compartiments), les diagrammes à secteur (le

fameux graphique en fromage ou tarte, c’est selon…), les

diagrammes figuratifs

1.3. Caractéristiques synthétiques

1.3.1. Le mode

 A partir du tableau de distribution : repérer la modalité qui a le plus grand effectif (une situation bi modale

peut exister)

 A partir d’un graphique : repérer le bâtonnet ou la barre la plus haute

2. LA VARIABLE ORDINALE

Une variable ordinale peut être ordonnée en ordre croissant ou décroissant (exemple : défavorable – indifférent

– favorable).

Notons que l’on peut remplacer des mots par des chiffres mais que ceux-ci n’ont aucune valeur arithmétique.

2.1. Tableau de distribution

Titre du tableau

Echelons (xj)

a b c Total

Effectifs (nj)

Fréquences (fj)

352

0,3577 420

0,4268 212

0,2154 984

100%)

Effectifs cumulés (Ng) 0 352 772 984

Fréquences cumulées (Fg) 0 0,3577 0,7845 1

A la différence d’une variable nominale, étant donné que les échelons sont ordonnés, on les disposera dans

l’ordre, soit en partant du plus bas vers le plus haut (croissant) ou l’inverse (décroissant).

La base du tableau est la même que pour une variable nominale, toutefois, la structure ordinale de l’ensemble

des modalités permet d’ajouter au simple tableau de distribution (des effectifs ou des fréquences), des

informations d’un nouveau type, qu’on appelle les effectifs (ou les fréquences) cumulé(e)s.

2.2. Graphiques

La différence majeure avec le cas d’une variable nominale, c’est que l’axe sur lequel on repère les modalités

(axe horizontal) est muni d’une flèche, pour indiquer que les modalités sont ordonnées. De plus, on marque la

continuité de la gradation des diverses modalités en les représentants toutes par des segments contigus sur l’axe.

 Représentation graphique de la distribution des effectifs et/ou fréquences : diagramme en bâtonnets (ou en

barres jointes)

 Représentation graphique du cumul des effectifs et/ou des fréquences : polygone cumulatif (voir dans la

partie "rangement en classes")

Le diagramme en bâtonnets & barres jointes (ou, dans sa version simple : dot plot)

2.3. Caractéristiques synthétiques

2.3.1. Le mode

 A partir d’un tableau de distribution : l’échelon ayant le plus grand effectif (ou fréquence)

 A partir du graphique de distribution : bâtonnet le plus haut

 A partir du polygone cumulatif : échelon au dessus duquel la pente est la plus forte

2.3.2. La médiane

 A partir de données brutes : le milieu de la liste

 A partir du tableau de distribution : effectif cumulé n/2 est atteint

 A partir du graphique : effacer les bâtonnets de manière symétrique en commençant par les extrémités

(s’il reste un bâtonnet entier, celui-ci est médian, en cas contraire, c’est quasi médiant)

 A partir du polygone cumulatif : voir chapitre 4 page 53

3. LA VARIABLE NUMERIQUE

3.1. Tableau de distribution

Une variable numérique est une variable dont les modalités observables sont des nombres (qui ont sens en tant

que nombre !). On parlera alors des valeurs de la variable, plutôt que de ses modalités. On peut repérer ces

valeurs sur un axe numérique.

La distinction entre variable continue et variable discrète joue un rôle important. Rappelons que pour une

variable continue, M est un intervalle (les valeurs observables sont tous les nombres compris entre les deux

extrémités de cet intervalle). Pour une variable discrète, M est un ensemble de nombres isolés les uns des autres.

On notera dans la pratique, que les variables continues sont mesurées de manières discrète, parce qu’on se

satisfait d’un certain degré de précision (on dit j’ai 18 ans pour dire qu’on a un nombre d’année compris dans

l’intervalle [18,19[)

Les techniques utilisées pour traiter et étudier une variable numérique diffèrent selon que le nombre de, valeurs

observables est grand ou petit. Quand la variable est continue, M est toujours grand (en réalité, il contient un

nombre infini de valeurs différentes).

Quand la variable est discrète, M peut être petit (exemple : nombre d’enfant d’un couple)

Si M est petit : un tableau de distribution identique à la variable ordinale

Si M est grand : voir distribution en classes

3.2. Graphiques

Dans les graphiques concernant des variables numériques, l’axe sur lequel on repère les modalités (axe

horizontal) est un axe numérique. Sur un tel axe, il est impératif de respecter les distances.

Comme pour les tableaux, on distinguera le cas où l’ensemble des modalités observables est petit (variable

discrète) ou le cas où l’ensemble des modalités observables est assez grand pour nécessiter de grouper des

valeurs en classes (variable continue, ou variable discrète avec un grand nombre de valeurs observables

différentes) ?

 Représentation graphique de la distribution des effectifs et/ou des fréquences : diagramme en bâtonnets si M

est petit, et histogramme si M est grand.

 Représentation graphique du cumul des effectifs et/ou des fréquences : diagramme en escalier si M est petit

et polygone cumulatif si M est grand.

Le diagramme en escalier

Diagramme en escalier représentant le cumul des effectifs

(ou des fréquences) pour une distribution. On dit aussi

fonction cumulée pour la distribution.

1 / 10 100%

Documents connexes

Statistique et traitement des données

Statistiques

EX 1 :( 3 points ) Le tableau suivant donne la distance entre le

Statistiques

tableaux statistiques

Séquence 3 : STATISTIQUE DESCRIPTIVE. ANALYSE DE DONNEES

1iereS. statistiques

Les différents paramètres d`une série statistique Exemple La

Le cours - Playmaths

..TRAITEMENT DE DONNÉES STATISTIQUES.. Effectuer une étude

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Vocabulaire et notations - Jey - la construction de notre maison

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Vocabulaire et notations - Jey - la construction de notre maison

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib