Cours de Biostatistiques : Statistiques Descriptives et Inférentielles

Telechargé par Sonia Kafuta

Téléchargement

LSVS – Semestre 5 – Biostatistiques - 1

BIOSTATISTIQUES

Thierry THIBAUT - Thierry.[email protected]

INTRODUCTION

Le site internet de l’enseignement (www.unice.fr/LEML/Pages/Thierry/Thierry.htm) comprend des diaporamas

de cours ainsi que des tables statistiques à télécharger. Ces supports ne dispensent pas de présence en cours

magistral, certains points pouvant ou non y être abordés. Lors des TD, il sera nécessaire d’apporter cours,

tables statistiques, fascicule de TD, calculatrice, ainsi que ses exercices préparés.

Les prérequis en mathématiques sont relativement faibles, le cours étant basé sur l’apprentissage de

l’utilisation d’outils indispensables à la poursuite des études en master et à une carrière scientifique en général.

BUT DES STATISTIQUES

Les statistiques permettent de confirmer ou d’infirmer une

hypothèse avec une marge d’erreur la plus petite possible,

et/ou prédire un évènement à l’aide d’outils. Il existe deux

types de statistiques :

• Les statistiques descriptives, permettant de décrire

une série de données

• Les statistiques inférentielles, consistant en des tests

permettant de confirmer ou infirmer une hypothèse

Sur l’organigramme ci-contre représentant le processus de

démarche scientifique, les tests statistiques permettent d’une

part l’interprétation des résultats, et d’autre par la

confirmation ou l’information d’une hypothèse.

STATISTIQUES DESCRIPTIVES

IDENTIFICATION DES DONNEES

La population cible est la population d’intérêt. Elle consiste

en l’ensemble des éléments en principe visés par

l’échantillonnage. Quelle est la population cible ? Il s’agit de

la population sur laquelle on aimerait bien que les conclusions

de l’étude portent. Dans le cadre d’études sur l’homme par

exemple, celle-ci serait Homo sapiens.

La population statistique permet de préciser notre

échantillonnage : c’est l’ensemble des éléments

effectivement représentés par celui-ci. Les éléments qui la

composent se caractérisent par au moins une caractéristique

LSVS – Semestre 5 – Biostatistiques - 2

commune et exclusive qui permet de les distinguer sans ambigüité. Quelle est la population statistique? Il faut

mentionner la ou les caractéristiques qui permettent de la distinguer de toute autre population statistique.

Reprenant notre exemple, nous travaillerons par exemple sur des français.

L’échantillon (sample) est le fragment d’un ensemble prélevé pour juger de cet ensemble. Ou, dit d’une autre

façon, la fraction de la population statistique sur laquelle des mesures sont faites pour connaître les propriétés

de cette population. L’échantillon (notre sélection par le hasard ou non de français) est identifié par son

effectif, noté n. L’échantillonnage peut être de deux types :

• Echantillonnage aléatoire simple, au sein duquel on prélève au hasard et de façon indépendante un

certain nombre n d’éléments de la population statistique à N éléments. Chaque élément de la

population doit avoir la même probabilité d’être sélectionné. Exemple : mesure de la taille des

personnes présentes dans l’amphi sur un effectif n=10 personnes.

• Echantillonnage représentatif, reflétant fidèlement la complexité et la composition de la population.

L’échantillonnage aléatoire ainsi que l’inventaire exhaustif ou recensement sont deux façons d’obtenir

un échantillon représentatif d’une population. Exemple : en fonction de la connaissance du système

étudié, on peut échantillonner uniquement les personnes brunes.

L’élément correspond au membre d’une population statistique (spécimen, prélèvement d’eau, individu). Quel

est l’élément ? Il faut le définir de manière à pouvoir le reconnaître sans ambigüité. C’est sur l’élément que l’on

effectuera la mesure de variables. En expérimentation, si l’on pose très clairement les hypothèses et que l’on

définit exactement les éléments, l’analyse de données et l’interprétation de résultats en découlera

naturellement.

La variable correspond à ce que l’on mesurera sur notre échantillon : c’est ce qui le décrira. Plus formellement,

une variable consiste en toute caractéristique mesurable ou observable sur un élément d’échantillonnage

(variable propre) ou sur son environnement (variable associée). Par exemple, un descripteur, caractère,

attribut, observation, trait, profil (en géophysique), item (dans les questionnaires de psychologie), stimulus

(dans une étude du comportement). Il existe différents types de variables, présentées dans le tableau ci-

dessous.

LSVS – Semestre 5 – Biostatistiques - 3

REPRESENTATION DES DONNEES

L’objectif de la représentation de données est la transmission d’un message clair au lecteur. Le graphique le

plus simple est toujours le plus clair.

Prenons l’exemple de la comparaison entre la taille des filles blondes et rousses de notre amphi. La taille est ici

une variable quantitative continue, induisant une série de données que l’on devra représenter. Le choix de la

méthode de représentation se fait selon le type de série statistique (simple ou double), et le type de variable

(qualitative, quantitative discrète ou continue).

Dans le cadre de séries statistiques simples, une seule variable est observée sur chaque élément. Les

représentations à utiliser sont incidemment :

• Un tableau, pour les distributions de fréquences,

• Une figure, différente en fonction du type de variable :

o Qualitative ou discrète :

 Diagramme en bâtons

 Camembert

o Quantitative continue :

 Polygone de fréquences

 Histogramme

 Courbe de fréquences

VARIABLE QUALITATIVE (OU SEMI

QUANTITATIVE A FAIBLE NOMBRE

DE CLASSES)

Chaque catégorie d’observations forme une

classe. On dénombre les éléments de

chacune d’entre elles. Prenons l’exemple de

tableau de distribution de fréquences de

populations de souris en fonction de leur

stade de développement.

VARIABLE QUANTITATIVE (OU SEMI QUANTITATIVE A GRAND NOMBRE DE CLASSES)

ETABLIR DES CLASSES

Ces variables sont plus complexes à représenter. Il est nécessaire de regrouper les observations pour établir

des classes en fonction de valeurs fixes d’une variable discrète ou semi quantitative (exemple : âge=1, 2, 3

ans…), d’une division imposée par la théorie (exemple : juvéniles, adultes, etc.…), ou d’utiliser des règles

mathématiques permettant la production d’un nombre adéquat de classes. Parmi elles :

• Règle de Sturge :  

• Règle de Yule :    



 

Dans les deux cas, nous arrondirons le nombre de classes à l’entier le plus proche, le nombre de classes étant

un entier.

LSVS – Semestre 5 – Biostatistiques - 4

DEFINIR LES BORNES, INTERVALLES ET INDICES DE CLASSE

Pour déterminer les intervalles et les bornes de classe :

• La borne inférieure d’une classe est la plus petite valeur admise dans la classe

• La borne supérieure d’une classe est au contraire la plus grande valeur admise dans la classe

• L’intervalle de classe se calcule approximativement avec la formule suivante :





• L’indice de classe correspond à la valeur centrale de la classe.

Il faut faire en sorte de faire coïncider les bornes et les indices de classe avec des nombres comportant peu de

décimales, et délimiter des classes d’égale étendue ne se chevauchant pas.

DENOMBREMENT

Enfin, il faut dénombrer les éléments appartenant à chaque classe (fréquence absolue ou effectif de la classe).

EXEMPLE

Prenons la longueur totale du crâne (mm) pour un sous-

échantillon de 60 souris sylvestres adultes (I, II et III),

tiré d’un échantillon de 122 souris de Landry (2000).

L’effectif de l’échantillon est de n=60.

• Combien de classes ? Selon les règles de

Sturge et Yule, nous devrons donc définir 7

classes.

• Quelle sera l’étendue des classes ? L’étendue

de variation de la variable est de 0,5mm.

• Bornes, intervalles et indice des classes ? Attention, nous voulons des valeurs simples avec très peu

de décimales ! La valeur minimum des données est de 22,28. Nous avons 7 classes de 0,5mm chacune.

Une série simple donnerait les indices de classe suivants : 22,5, 23,0, 23,5, 24,0, 24,5, 25,0, 25,5.

Les bornes inférieure et supérieure de la première classe sont 22,25 et 22,75, et celles de la dernière

classe 25,25 et 25,75. Nos classes incluent donc l’ensemble des 60 données, ce qui est nécessaire.

Attention, les classes ne se chevauchent jamais, la borne supérieure est généralement exclue de

l’intervalle de classe.

VOCABULAIRE

Les différentes fréquences :

• Fréquence absolue, notée f

• Fréquence relative, notée f

rel

, égale à f/n

• Pourcentage, noté %, 100.f

rel

• Fréquence cumulée d’une classe, notée f

cum

, correspond au cumul step-by-step des fréquences

absolues, la dernière fréquence cumulée étant égale à n

• Fréquence relative cumulée, notée f

rel.cum

égale à f

cum

• Pourcentage cumulé, noté %

cum

, égal à 100.f

cum

LSVS – Semestre 5 – Biostatistiques - 5

PARAMETRES D’UNE DISTRIBUTION

Il existe plusieurs paramètres permettant de décrire une distribution, avec en premier lieu les paramètres de

position, correspondant aux valeurs centrales autour desquelles se groupent les valeurs observées.

PARAMETRES DE POSITION

La moyenne de la distribution théorique des éléments x, aussi appelée moyenne arithmétique, sera notée 

lorsque l’on considère un échantillon, et lorsque l’on considère une population. On l’obtient par la formule

  









La médiane, notée 

consiste en la valeur de la variable qui se trouve au centre de la série statistique, classée

en ordre croissant. Elle sépare la série en deux groupes d’égale importance. S’il y a un nombre impair

d’observations,  est une observation de la série. Sinon, la médiane est située entre les deux observations

centrales de la série. Par convention, on utilise la moyenne de ces deux valeurs.

Le mode, noté , est l’indice de la classe comportant le

plus de valeurs. Dans une distribution continue, c’est la

« bosse » de la distribution. Il peut y avoir plusieurs

modes dans une distribution, qui, dans le cas d’une

dynamique de population, correspondent à plusieurs

cohortes (individus nés d’une même année). Le mode

positionne la distribution. Il est possible d’être plus précis

dans la définition de celui-ci en utilisant le calcul de mode

corrigé présenté ci-dessous.

Observant la distribution d’un nombre de larves d’un insecte lambda en fonction de la largeur de leur capsule

céphalique, nous différencions quatre cohortes représentées par des modes multiples.

1 / 18 100%

Documents connexes

les notations

RESUME Dans ce travail, nous proposons une méthode

Mardi 2 Avril Objectif : Un laboratoire dispose de 200 échantillons

Les prélèvements sanguins L`importance de la phase pré

Méthodes d'analyse des médicaments : pH, cendres totales, uniformité de masse

Technicien en automatisation

Exercice de probabilités : Roue et bonbons

Fabrication d`une enceinte climatique avec système

UNIFR – département de mathématiques 22 Mars 2017

Enoncé - Probabilités - e1045 Quatre amateurs d`astrologie se

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Cours de Biostatistiques : Statistiques Descriptives et Inférentielles

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Cours de Biostatistiques : Statistiques Descriptives et Inférentielles

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib