1/18 15/02/2016 Laure APRILE L3 CR : Amine BOUACHBA

publicité
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
15/02/2016
Laure APRILE L3
CR : Amine BOUACHBA
Biomédecine Quantitative
Dr B.GIUSIANO
18 pages
Introduction à l’analyse quantitative (1)
Plan
Introduction
I.
Exemple de la saignée
II.
Premier essai clinique contrôlé
B.
Population et échantillon.
I.
Méthodes statistiques
II.
Variabilité
III.
Distribution
IV.
Notion de paramètre
V.
Echantillon
VI.
Population
C.
Statistiques descriptives : types de variables, paramètres.
I.
Variables
II.
Caractérisation des données qualitatives et ordinales unidimensionelles.
III.
Caractérisation des données qualitatives à deux dimensions.
IV.
Caractérisation des données quantitatives à une dimension
V.
Paramètres
A.
Introduction
A.
I.
Exemple de la saignée.
La saignée permet de guérir un grand nombre de maladies, c’est le traitement princeps de la pharmacopée. On
l’utilise depuis plusieurs siècles (depuis l’antiquité grecque) ce qui fait penser qu’il s’agit, à priori d’un
traitement efficace.
D’après l’encyclopédie de Diderot et d’Alembert (1751 #siècledeslumières) : la saignée est une ouverture faite à
un vaisseau sanguin, pour en tirer le fluide qui y est contenu. C'est un des plus grands et des plus prompts
moyens de guérison que la Médecine connaisse. Il s’agit en réalité d’une « plaisanterie » (dixit le prof).
On fut persuadé de l’efficacité de la saignée pendant plusieurs siècles par référence aux théories évoquées pour
expliquer les maladies. L’idée selon laquelle les maladies sont dues à de mauvaises « Humeurs » était répandue
à l’époque, la saignée, permettait selon certains, de se débarrasser de ces mauvaises humeurs. Les humeurs restantes dans le sang sont ensuite diluées grâce à l’ingestion d’eau.
Pierre Le Charles Alexandre Louis, fut le premier en 1835 à mettre en doute les effets de la saignée. En effet
ses études ont démontrées que plus on faisait de saignées, plus on les faisait tôt, moins le patient survivait.
De nombreux autres traitements sans grand support scientifique comme la saignée sont de nos jours encore utilisés par les médecins.
1/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
Comment donner un support scientifique aux connaissances médicales permettant de traiter des maladies et
de soigner des malades ?
II.
Le premier essai clinique contrôlé
Le premier essai clinique date du 18ème siècle
En 1740-1744 : Le commandant George Anson remporte plusieurs batailles sur les mers contre la flotte
espagnole. Il remporta ainsi 1 313 843 pièces d’or et 35 682 onces d’argent pur (oui je sais c’est passionnant….) et
ne perdit que 4 hommes au combat. Mais plus de 1000 hommes sont morts du scorbut en mer.
En 1746, James LIND suivit le cas de 12 marins malades pendant 14 jours. Il s’aperçut que les remèdes utilisés
contre le scorbut sont en réalité peu efficaces.
Il constitua 6 paires de marins et donna à chaque paire un traitement différent. (1L de cidre, 25 gouttes d’élixir
de vitriol, 2 cuillères de vinaigre, un quart de litre d’eau de mer, de la pâte médicinale et un traitement
nouveau : 2 oranges+1 citron)
Il observa une guérison spectaculaire et complète de la paire ayant reçu le traitement à base d’orange et de
citron. (Scorbut=carence importante en Vitamine C)
Le premier essai clinique est né (Youpi….)
Dans la médecine actuelle, nous avons fait beaucoup de progrès. Ceux-ci datent des années 50 et sont dus en
grande partie à la réalisation d’études sur l’efficacité des médicaments.
Henri LABORI a été l’un des premiers à prôner l’étude en double aveugle dans laquelle ni le patient, ni le
médecin ne sait quel traitement est donné au patient. Dans ces études, les résultats sont plus clairs car on
supprime l’effet placebo (pouvant être créé par le médecin lui-même).
Démarche scientifique : permet de faire la différence entre la médecine occidentale et les autres médecines
(douce, naturelle...).
Raisonnement scientifique : C’est la capacité de douter. La science progresse lentement et uniquement en
osant confronter les résultats à la critique (C’est le but des publications scientifiques). La science est l’opposé
de la croyance.
Population et échantillon
B.
I.
La méthode statistique.
La méthode statistique a pour but de dégager certaines propriétés d’un ensemble de mesures ou d’observations
et par la suite d’en déduire des règles générales et de décrire cet ensemble, appelé population.
Dans les méthodes statistiques il y a des méthodes descriptives (je décris ce que je vois) ou inférentielles
(déduire des règles générales à partir de ce que l’on a vu).
2/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
II.
Variabilité.
La variabilité est la règle dans
les sciences de la vie : c’est pour
cela que l’on a besoin des
statistiques
Ex : histogramme de la
répartition des poids de
naissance de nouveaux-nés (NN)
Un grand nombre de NN ont un
poids situé aux alentours de
3100-3500g. Il y en a beaucoup
moins en dessous et au-dessus
de ces valeurs.
Cela donne une certaine forme à
l’histogramme
III.
Distribution
Ex : La distribution des tailles.
On mesure la taille de 10
personnes.
Chaque cube représentant une
personne est disposé au niveau
d’une échelle graduée en fonction
de la taille de l’individu.
L’ensemble ainsi formé
représente la distribution des
tailles de l’échantillon de 10
personnes.
3/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
On réalise la même
expérience avec 400
personnes.
La construction est plus
imposante et une forme
plus nette se dessine.
Si on prend encore plus de personnes, une
courbe se dessine : Il s’agit de la courbe
normale de Gauss. Celle-ci se rencontre très
fréquemment dans la nature.
Sur le plan mathématique, cette courbe s’étend
de -∞ à +∞.
Pour n’importe quelle taille, la probabilité
pour qu’elle soit sous la courbe est égale à 1.
En statistique, on s’éloigne de la réalité pour
pouvoir se baser sur des propriétés
mathématiques solides.
IV.
Notion de paramètre
Du fait de la variabilité, on ne peut pas donner la valeur d’une seule mesure pour résumer la population. Il faut
des indices qui puissent résumer valablement les observations. On résume donc les observations par plusieurs,
chiffres, plusieurs nombres appelés les paramètres de la distribution.
Ex : Pour le poids de naissance, les deux paramètres qui sont suffisants pour résumer la distribution sont :la
moyenne et la variance (ou l’écart type qui est la racine carré de la variance)
V.
Echantillon
Le plus souvent la population ne peut pas être observée dans sa totalité pour des raisons pratiques (population
trop importante) et financières. Dans certains cas, l’étude de la population dans sa globalité est impossible car
cela conduirait à la destruction de l’individu. (Ex : étude du réglage d’une machine à fabriquer des gélules. Pour
savoir si la machine met la bonne quantité de principe actif dans chaque gélule, il faut prendre un certain
nombre de gélules produites et les casser afin de doser leur contenu).
On tire donc de la population un échantillon qui doit être représentatif de la population, c’est-à-dire que les
caractéristiques étudiées doivent être en même proportions dans l’échantillon et dans la population.
4/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
C’est cet échantillon que l’on va observer, que l’on va mesurer et à partir duquel on va calculer les paramètres
et ainsi extrapoler les résultats à la population selon des méthodes statistiques.
Comment faire pour avoir un échantillon représentatif de la population ?
Un bon échantillon doit être une image réduite de la population. Il doit être représentatif de la population vis-àvis du caractère étudié. Toutes les caractéristiques des individus n’ont pas la même importance selon ce que
l’on étudie. (Par exemple, la couleur des cheveux est inutile à prendre en compte pour étudier l’efficacité d’un
traitement de l’infarctus du myocarde).
Le meilleur moyen pour avoir un échantillon représentatif est de réalisé un tirage au hasard à partir d’une
population. On calcule les paramètres de l’échantillon et on les extrapole à la population initiale.
Si l’échantillon n’est pas représentatif de la population étudiée, on parle d’échantillon biaisé.
Le choix de l’échantillon et le recueil des données constitue la phase fondamentale, la plus longue, de l’étude.
Si la question posée n’est pas assez claire ou précise, le recueil des données est mauvais et l’étude est inutile.
Les biais classiques sont :
-Le biais de recrutement : l'inclusion d'un sujet dans l'étude est liée à un ou plusieurs des facteurs étudiés et ne
repose pas sur le hasard
-Effet « travailleur sain » : on le retrouve principalement dans des échantillons constitués à partir de travailleurs dont l’état de santé n'est pas celui de la population générale. (Ex : étudiants, salariés d’entreprise…il serait
plus intéressant d’étudier les salariés en arrêt maladie dont la maladie peut être due à leur métier)
-Effet « volontaire » : les échantillons constitués sur la base du volontariat posent des problèmes liés aux motivations personnelles pouvant être induites par un état de santé particulier ou par une exposition à des facteurs de
risque dépendants du phénomène étudié.
-Biais d’admission (paradoxe de Berkson) : ce biais peut se retrouver dans les études où les échantillons
d'individus proviennent de services hospitaliers ayant, par exemple, un recrutement très spécifique. De ce fait
l’échantillon ne sera pas représentatif de la population cible.
5/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
-Non réponse-Autosélection: l'inclusion d'un individu dans l'échantillon dépend d'une décision de sa part qui
peut être liée au phénomène étudié. Par exemple si on fait appel à de nombreux individus et qu’une grande partie refuse il faut se demander si ce refus est lié au facteur étudié.
-Biais de ‘prévalence-incidence » (biais de Neyman) : il correspond à la situation ou des décès précoces n'auront pas été pris en compte du fait du laps de temps entre l'exposition et son effet éventuel ou encore lorsque
des cas n'ont pas été découverts. (Biais essentiellement retrouvés dans les études sur les conditions de travail).
Il y a des nombreux biais auxquels il faut faire attention. Lors de la lecture d’un article il faut se
demander si l’échantillon n’est pas incongru.
« Appeler le statisticien quand l’expérience est faite c’est lui demander de faire un examen post mortem, il peut
juste dire de quoi est morte l’étude ».
Il faut s’intéresser à toute la méthode statistique qui démarre de l’idée même de cette étude, pour s’assurer que
la question a été bien posée, que les sujets ont bien été recrutés, s’assurer que l’étude est bien conduite et sans
biais… Le statisticien ne doit pas servir uniquement à faire les calculs, il doit suivre l’ensemble de l’étude.
Ex : Un cardiologue marseillais a voulu démontré que la tension artérielle des enfants pouvait prédire leur
susceptibilité à devenir hypertendu à l’âge adulte. Pendant 5 ans la tension artérielle d’enfants à été relevée
par des médecins scolaires et de nombreuses données ont pu être recueillis. Cependant cette étude n’a pas pu
être menée à bien car la question initiale avait été mal posée. De nombreux problèmes interfèrent avec l’étude :
Premièrement, pour avoir des résultats concrets et des preuves il faut attendre que ces enfants aient atteints
l’âge adulte.
Ensuite le cardiologue a voulu réaliser des courbes de Tension normales mais là également ce fut impossible
car la médecine scolaire ne voit pas les enfants tous les ans, parce que la valeur de la tension dépend de
nombreux facteurs (couché/debout, avant/après la récréation…), autant de facteurs qui n’avaient pas été pris
en compte lors du recueil des données.
VI.
Population
1) Quelle population ?
Il faut faire attention de quelle population on parle afin de pouvoir définir un échantillon représentatif.
• Étude portant sur la consommation de tabac chez les français.
– La population est l'ensemble des français et la caractéristique est la consommation de tabac.
Mais ceci n’est pas assez précis. Il manque une notion de temps (de quelle date à quelle date ?). Il faut préciser
ce qui est sous-entendu dans le terme « français » : parle-t-on d’individus pris au hasard dans la métropole ?
Inclus-t-on l’outre-mer ? Ou seulement une ou quelques régions ? Prenons nous en compte les enfants ? Les
personnes âgées ? Ou seulement une tranche d’âge précise ?
• Étude portant sur la composition en mercure des ampoules électriques produites dans l'usine X.
6/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
– La population est constituée des ampoules électriques produites à l'usine X et la caractéristique étudiée est la
concentration en Hg.
Là également il manque la notion de temps : par exemple les ampoules fabriquées avant le renouvellement des
machines de l’usine doivent-elles être prise en compte ?
Il faut bien définir la population étudiée car cela constitue une partie des critères d’inclusion et d’exclusion.
• Une compagnie pharmaceutique veut vérifier un nouveau vaccin contre une certaine maladie. On administre ce produit à 50 patients atteints de la maladie.
– La population est formée de tous les gens atteints de la maladie, l'échantillon est formé des 50 patients à qui
on a administré le médicament et la caractéristique étudiée est la réponse au médicament.
Il faut, dans cette étude, utiliser un échantillon contrôle : échantillon de même effectif mais dont les patients ne
sont pas vaccinés.
2) Echantillonnage.
La meilleure façon de faire un échantillon est de tirer au hasard (tirage au sort, tables de nombres aléatoires..).
Il ne faut surtout pas choisir un échantillon par commodité mais cela se produit parfois sans que l’on s’en rende
compte (ex : patients d’un service).
Lorsque l’on étudie une mesure très liée au sexe, ou à la température moyenne, ou à la région… et que l’on ne
veut pas éliminer ce facteur on peut faire un tirage au sort stratifié. Ceci permet d’avoir tout de même un
échantillon représentatif de la population.
Stratification : on subdivise la population en sous-groupes, en strates et on tire au sort dans chacune de ces
strates.
Chaque strate peut être représentée en fonction de son importance dans la population (dans les mêmes
proportions).
Il ne faut jamais oublier que l’échantillon n’est pas la population !!
Du fait de la variabilité des mesures dans le monde vivant, l’échantillonnage est soumis à des fluctuations.
Deux échantillons de même effectif, tirés de la même population auront tout de même des paramètres différents : on parle de fluctuation d’échantillonnage. Du fait des fluctuations d’échantillonnage, les conclusions
que l’on peut tirer à partir d’un échantillon sont sujettes à erreur car ils ne représentent pas exactement la population.
Le calcul d’un paramètre sur un échantillon ne permet que d’estimer le paramètre de la population avec
un certain degré d’imprécision.
7/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

Nombre de malades observés sur
10 000 échantillons de 20 sujets tirés d’une population où le pourcentage vrai de malades est 30%.
On tire 10000 échantillons de 20 sujets et on compte le nombre de malades dans chaque échantillon. On
observe le plus fréquemment entre 6 et 7 malades par échantillons.
Mais certains échantillons en contiennent 15 alors que d’autres n’en ont pas.
C’est cela la fluctuation d’échantillonnage. Lorsque l’on tire un grand nombre d’échantillon d’une population,
tous ne sont pas comparables exactement mais les valeurs sont malgré tout regroupées autour d’une moyenne
ou d’une proportion qui correspond finalement à la moyenne ou la proportion de la population.
On a en général une courbe normale centrée sur la moyenne (valeurs quantitatives) ou la proportion.
La moyenne de l’échantillon est considérée comme un bon estimateur de la moyenne de la population.
3) Intervalles de fluctuation et de confiance.
Quand on tire un échantillon on peut extrapoler à la population mais avec un risque d’erreur. Ce risque on peut
s’en servir pour créer un intervalle.
Même exemple que ci-dessus.
Le pourcentage de malades dans un échantillon de 20 sujets est compris entre 15% et 50%... Mais seulement
pour 95% des 10000 échantillons
• C’est l’intervalle de fluctuation : il s’agit de l’intervalle d’imprécision du paramètre obtenu à partir de
l’échantillon.
8/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
A partir d’un échantillon, on ne doit pas donner une valeur unique pour un pourcentage ou pour une moyenne,
mais un intervalle
• C’est l’intervalle de confiance
Lorsque l’on a un paramètre d’un échantillon, même si on dit que la moyenne de cet échantillon est une bonne
estimation de la moyenne de la population, il faut aussi donner l’intervalle de confiance pour connaitre le degré
de précision de l’estimation de cette moyenne.
4) Probabilités et Distribution normale
Quand on a une distribution que l’on reconnait, que l’on a étudié mathématiquement, cela permet de faire des
prédictions à partir des propriétés mathématiques de cette distribution.
Par exemple dans la distribution normale, on peut
calculer assez facilement l’aire sous la courbe
entre deux bornes.
Ainsi, dans cet exemple, 68% des cas tombent entre
3,5 et 4, 95% des cas entre 3,25 et 4,25 et 99%
tombent entre 3,0 et 4,5.
Cela va nous aider à choisir un intervalle de
confiance en fonction du risque de se tromper que
l’on choisit de prendre (risque de 32%, 5% ou 1%).
9/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
5) Estimation et intervalle de confiance.
Exemple : Les résultats d’une étude réalisée sur un échantillon représentatif de nourrissons masculins français
âgés de 3 mois, ont donné une estimation de la taille moyenne de 60,2 cm avec un intervalle de confiance à
95% de [59,2 ; 61,2]
=>Il y aurait donc 95 chances sur 100 que la taille moyenne des nourrissons masculins français de 3 mois soit
comprise entre 59,2 et 61,2 cm.
Ce n’est pas la meilleure façon de formuler les résultats mais il s’agit de la forme la plus simple et le plus compréhensible pour l’interlocuteur.
Si on tire 100 échantillons de même effectifs sur chacun des quels on calcule l’intervalle de confiance de la
moyenne, dans au moins 95% des cas, l’intervalle comprendra la vraie moyenne et dans seulement 5% des cas
l’intervalle ne la contiendra pas.
Problème : selon les mesures utilisées, selon leurs magnitudes, selon la valeur de la moyenne… les bornes vont
changer. Il y a une infinité de bornes et donc de calculs à faire. Il faudra à chaque fois, pour réaliser l’intervalle
de confiance, faire des calculs complexes à l’aide d’intégrales afin de calculer l’aire sous la courbe.
Une caractéristique de la loi normale est très intéressante pour éviter cela.
 Toute variable distribuée normalement, peut être transformée en variable centrée réduite en enlevant à
toutes les valeurs, la valeur de la moyenne et en divisant les résultats obtenus par l’écart type.
La moyenne de cette variable centrée réduite est alors égale à 0 et son écart type est de 1
 L’intérêt est que l’on va pouvoir utiliser une table de la loi centrée réduite où tous les calculs d’aire et de
bornes ont déjà été effectués (A vos polys de P1…)
Variable centrée réduite
C.
Statistiques descriptives : types de variables, paramètres.
Le but des statistiques descriptives consiste à décrire un ensemble d’observation à l’aide de quelques éléments
caractéristiques.
En général cela entraine une perte d’information.
Les méthodes descriptives dépendent de la nature des variables.
10/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
I.
Variables
Une variable est une caractéristique ou un facteur susceptible de prendre une valeur différente pour
chaque individu étudié.
On distingue les variables :
-Qualitatives
-Quantitatives
-Temporelles (évolution d’une variable dans le temps)
La typologie des variables est quasi infinie.
1) Variables qualitatives
Elles ne sont pas mesurables. Il s’agit de l’appartenance d’un individu à une classe parmi d’autres, avec des
classes exclusives qui correspondent aux différentes modalités du caractère étudié. On dénombre les effectifs
appartenant à chacune de ces classes.
Attention à bien définir les modalités d’une variable qualitative pour bien classer les individus.
Ex : couleur des yeux (mais attention à bien définir dans ce cas le nombre de couleurs que l’on considère)…,
sexe, efficacité d’un traitement (mauvaise, moyenne ou bonne…), groupe sanguin….
On distingue 3 types de variables qualitatives :

Nominales : variables sans ordre particulier entre les modalités.

Ordinales : Variables où il existe un ordre entre les modalités (ex : mauvais, moyen ou bon résultat d’un
traitement).

Binaires : Variables avec seulement deux modalités (généralement oui/non), plus difficile à gérer et
nécessite donc des méthodes particulières.
2) Variables quantitatives.
Elles sont caractérisées par des valeurs numériques (on peut avec les valeurs réaliser des opérations
mathématiques)
On distingue :

Les variables quantitatives continues : Elles peuvent prendre n’importe quelle valeur numérique dans
l’intervalle d’observation et appartiennent à l’ensemble des réels (Elles peuvent avoir une infinité de
chiffres après la virgule). Mathématiquement on dit que la valeur d’une variable continue a une
probabilité nulle d’apparaitre du fait de l’infinité des possibilités.
Cependant elles restent très utilisées en médecine mais leur précision est tout de même limitée par
l’instrument de mesure.
Ex : Poids 56,3 kg, Taille 1,72 m, Cholestérol 2,22 g/L

Les variables quantitatives discrètes : Ce sont des variables numériques discontinues. En général ce
sont des valeurs entières qui correspondent à un dénombrement.
Ex : rechute d’une maladie = 3 par an, Rappel de vaccin =4 injections, Dentition=32 dents…
11/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

Les variables temporelles : Ce sont des variables quantitatives particulières utilisant les unités de temps
et nécessitent donc des méthodes différentes. Elles sont souvent utilisées dans les études de survie.
(Peuvent être considérées à part. C’est pour cela qu’elles n’apparaissent pas dans le schéma ci-dessous)
Schéma important à retenir (Dixit le prof)
II.
Caractérisation des données qualitatives et ordinales unidimensionelles.
Pour décrire les données d’une étude, on peut utiliser :
-Des tableaux d’effectifs, la fréquence absolue
-Les fréquences relatives
-Les fréquences cumulées
-Les diagrammes « camembert »
-Les diagrammes en bâtons et mode
1) Fréquence absolue et Tableaux d’effectifs
Une fréquence absolue c’est l’effectif, c’est le nombre d’individus par classe, par modalité.
Ce dénombrement donne lieu à une représentation des données sous forme de tableau.
Ex : Description de la variable qualitative « groupe sanguin » dans l’échantillon étudié.
Sur les classes ainsi formées, les seules opérations pouvant être effectuées sont :
-réaliser des classes disjointes à partir d’une seule classe
-Regrouper certaines classes
La seule relation qui puisse être utilisée sur ces données est la relation d’appartenance à une même classe.
Ex : regroupement des individus en fonction du groupe ABO sans tenir compte du Rhésus.
12/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
2) Fréquences relatives
Pour chaque classe, c’est le rapport de son effectif au nombre total d’individus de la série des mesures.
Fi=fréquence
ni=effectif de la classe
N=effectif total
Les fréquences relatives peuvent être exprimées en pourcentage (comme dans le tableau ci-dessous). Pour cela
multiplier par 100 et arrondir à l’unité.
La somme des fréquences relatives doit être égale à 1 (sinon cela veut dire qu’une classe est manquante ou
que les classes ne sont pas exclusives : chaque individu ne doit être comptabilisé dans une seule classe)
3) Diagramme « Camembert »
On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est
proportionnelle à l’effectif.
Le diagramme « camembert » est bien adapté à la représentation des données qualitatives « pures ou
nominales ». Il n’est pas très intéressant pour les valeurs ordinales.
13/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
4) Diagramme en Bâtons
Pour les valeurs qualitatives
ordinales, le diagramme en
Bâtons est plus intéressant que
le camembert car on peut
ordonner les modalités sur
l’axe des abscisses.
On peut y représenter des
fréquences absolues,
relatives ou cumulées.
III.
Caractérisation des données qualitatives à deux dimensions.
Lorsque l’on a deux dimensions on
peut faire un tableau de contingence.
Les modalités de deux variables
qualitatives permettent de constituer
des classes exclusives auxquelles est
affectée chaque observation
La dernière colonne et la dernière ligne sont appelées les « marginales » : il s’agit des totaux de chaque
variable.
IV.
Caractérisation des données quantitatives à une dimension

Pour les variables discrètes, il est possible de représenter les données par un diagramme en bâtons
comme dans le cas des données ordinales.

Dans tous les cas, on peut diviser l’intervalle de variation de la variable en un certain nombre de classe
et l’on dénombre toutes les mesures à l’intérieur de chaque classe. On peut ainsi construire un
histogramme. Cela permet également de transformer cette variable quantitative en variable qualitative
si nécessaire. (ex : classe d’âge : de 0 à 5 ans, de 5 à 10 ans…)
14/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
Pour construire un histogramme, on porte
sur l’axe des abscisses les extrémités de
chaque classe et on construit pour chacune
d’elle un rectangle dont la surface est
proportionnelle au nombre d’individu
contenu dans la classe (ce qui le
différencie d’un diagramme en bâton)
On peut faire varier la taille des classes.
L’aspect de l’histogramme garde une
forme globale identique mais plus ou
moins lisse et harmonieuse.
V.
Paramètres
On distingue deux types de paramètres :
 Paramètres de POSITION (Médiane, quartiles, déciles, percentiles, Mode,
Moyenne, Fréquences relatives)
 Paramètres de DISPERSION (Minimum, Maximum, étendue, intervalle
interquartiles, variance, écart type, coefficient de variation)
1) Paramètres de Position
Ils donnent une idée de la position des valeurs les plus fréquentes par rapport à l’axe des abscisses.
 Moyenne
15/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
Elle s’exprime dans les mêmes unités que les
valeurs observées.
C’est un indicateur de tendance centrale servant à
résumer une série de données d’une variable
quantitative.
Elle est intéressante quand la distribution des
données est symétrique de part et d’autre de cette
moyenne.
Si ce n’est pas le cas la médiane est plus
intéressant.
 Médiane
C’est la valeur qui partage la série des individus en 2 groupes d’effectifs égaux.
Elle est moins influencée que la moyenne arithmétique par les valeurs extrêmes de la variable.
La moitié des sujets présentent une valeur inférieure à la médiane et l’autre moitié présente une valeur
supérieure.
La médiane correspond au 2ème quartile.
 Quartiles
Ils séparent l’échantillon en quart (j’aurais pas deviné toute
seule…)
Il y a 25% des individus entre deux quartiles.
Le 1er quartile sépare 25% des valeurs les plus faibles et
75% des valeurs les plus élevées.
Le 3ème quartile sépare 75% des valeurs les plus faibles et
25% des valeurs les plus élevées.
2) Paramètres de Dispersion
La dispersion représente l’étalement des valeurs.
 Les Extrêmes (Min et Max)
Ils sont très sensibles aux valeurs extrêmes mais permettent dans de nombreux cas de détecter les erreurs au
moment de la validation des données. (Ex : enfant de 2g)
 Etendue
Etendue= Valeur Maximale – Valeur Minimale
 Espace interquartile
Qi= Q3 - Q1
16/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
Cet espace contient 50% des valeurs de la série.
 Ecart Type
L’écart type d’une population est la racine carrée de sa variance
L’écart type estimé d’une population à partir d’un échantillon est la racine carrée de
la variance estimée.
L’intérêt de l’écart type (par rapport à la variance) est qu’il a la même grandeur que la moyenne ce qui permet
de dire Moyenne+/- écart type.
L’écart type dans le cadre de la distribution normale est un des deux paramètres importants car il donne une
idée de l’aplatissement de la courbe normale.
La projection du point d’inflexion de la courbe
normale sur l’axe des abscisses donne la mesure
de l’écart type.
De la même façon il est intéressant de savoir que
l’aire sous la courbe entre moyenne - 2 écarts
types et moyenne+2 écarts types est égale à
95,45% (retrouvé dans les tables de la variable
centrée réduite).
CONCLUSION : Une distribution peut être résumée par un paramètre de position et un paramètre de
dispersion.
A méditer…
• « En France, en moyenne, chaque personne possède un testicule. » (Anonyme)
• « Un enfant sur sept étant Chinois, nous nous sommes arrêtés à six. » (Marie-Lyse Aston)
• « Il y a trois sortes de mensonges : le mensonge simple, le fieffé mensonge, et les statistiques »
(Benjamin Disraeli)
J’ai eu l’immense honneur (mais surtout le malheur) de prendre ce magnifique 1er ronéo de maths et du
semestre…. (Pauvre de moi…)
J’ai fait mon maximum pour que tout cela paraisse clair mais ce n’était pas facile…
Place à la dernière dédicace de toute ma vie !! (#dernier ronéo)
Un immense merci à Doria et Kimi (et ses jolis talons clap clap clap) pour avoir eu le courage suicidaire de
m’accompagner dans cette torture et d’avoir égaillé les paroles du prof avec leur petite discussions plus que
philosophiques (#Stroumph)<3 <3
17/18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative
Bisou également à Clémence, Sonia, Eugénie, Maylis, Sanaba, Ryan…. (Comme d’hab ne m’en voulait pas si
j’oublie des noms mais après 7h à taper cette m**** j’en ai un peu marre)
Un petit coucou à mes co-stagiaires de Pédiatrie.
Encore un grand bravo au comité de relecture (Vous êtes complètement fous d’avoir fait ça les gars :p)
Sur ce je tire ma révérence de ronéotypeuse. Bon semestre à tous !!
CR : On aura des QCM dans cette matière, le tout est de savoir s’il y aura des points négatifs (ce qui change
quand même pas mal les choses). Généralement c’est une question qu’on pose au Pr responsable de la matière,
qui est, pour les maths, le Pr Giorgi.
Il n’interviendra pas avant le 13 Avril, si quelqu’un se motive pour lui envoyer un mail ça serait cool ! Sinon on
attend patiemment la réponse en cours.
« La politique est l’art d’empêcher les gens de se mêler de ce qui les regarde »
Paul Valéry
18/18
Téléchargement