BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative 15/02/2016 Laure APRILE L3 CR : Amine BOUACHBA Biomédecine Quantitative Dr B.GIUSIANO 18 pages Introduction à l’analyse quantitative (1) Plan Introduction I. Exemple de la saignée II. Premier essai clinique contrôlé B. Population et échantillon. I. Méthodes statistiques II. Variabilité III. Distribution IV. Notion de paramètre V. Echantillon VI. Population C. Statistiques descriptives : types de variables, paramètres. I. Variables II. Caractérisation des données qualitatives et ordinales unidimensionelles. III. Caractérisation des données qualitatives à deux dimensions. IV. Caractérisation des données quantitatives à une dimension V. Paramètres A. Introduction A. I. Exemple de la saignée. La saignée permet de guérir un grand nombre de maladies, c’est le traitement princeps de la pharmacopée. On l’utilise depuis plusieurs siècles (depuis l’antiquité grecque) ce qui fait penser qu’il s’agit, à priori d’un traitement efficace. D’après l’encyclopédie de Diderot et d’Alembert (1751 #siècledeslumières) : la saignée est une ouverture faite à un vaisseau sanguin, pour en tirer le fluide qui y est contenu. C'est un des plus grands et des plus prompts moyens de guérison que la Médecine connaisse. Il s’agit en réalité d’une « plaisanterie » (dixit le prof). On fut persuadé de l’efficacité de la saignée pendant plusieurs siècles par référence aux théories évoquées pour expliquer les maladies. L’idée selon laquelle les maladies sont dues à de mauvaises « Humeurs » était répandue à l’époque, la saignée, permettait selon certains, de se débarrasser de ces mauvaises humeurs. Les humeurs restantes dans le sang sont ensuite diluées grâce à l’ingestion d’eau. Pierre Le Charles Alexandre Louis, fut le premier en 1835 à mettre en doute les effets de la saignée. En effet ses études ont démontrées que plus on faisait de saignées, plus on les faisait tôt, moins le patient survivait. De nombreux autres traitements sans grand support scientifique comme la saignée sont de nos jours encore utilisés par les médecins. 1/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative Comment donner un support scientifique aux connaissances médicales permettant de traiter des maladies et de soigner des malades ? II. Le premier essai clinique contrôlé Le premier essai clinique date du 18ème siècle En 1740-1744 : Le commandant George Anson remporte plusieurs batailles sur les mers contre la flotte espagnole. Il remporta ainsi 1 313 843 pièces d’or et 35 682 onces d’argent pur (oui je sais c’est passionnant….) et ne perdit que 4 hommes au combat. Mais plus de 1000 hommes sont morts du scorbut en mer. En 1746, James LIND suivit le cas de 12 marins malades pendant 14 jours. Il s’aperçut que les remèdes utilisés contre le scorbut sont en réalité peu efficaces. Il constitua 6 paires de marins et donna à chaque paire un traitement différent. (1L de cidre, 25 gouttes d’élixir de vitriol, 2 cuillères de vinaigre, un quart de litre d’eau de mer, de la pâte médicinale et un traitement nouveau : 2 oranges+1 citron) Il observa une guérison spectaculaire et complète de la paire ayant reçu le traitement à base d’orange et de citron. (Scorbut=carence importante en Vitamine C) Le premier essai clinique est né (Youpi….) Dans la médecine actuelle, nous avons fait beaucoup de progrès. Ceux-ci datent des années 50 et sont dus en grande partie à la réalisation d’études sur l’efficacité des médicaments. Henri LABORI a été l’un des premiers à prôner l’étude en double aveugle dans laquelle ni le patient, ni le médecin ne sait quel traitement est donné au patient. Dans ces études, les résultats sont plus clairs car on supprime l’effet placebo (pouvant être créé par le médecin lui-même). Démarche scientifique : permet de faire la différence entre la médecine occidentale et les autres médecines (douce, naturelle...). Raisonnement scientifique : C’est la capacité de douter. La science progresse lentement et uniquement en osant confronter les résultats à la critique (C’est le but des publications scientifiques). La science est l’opposé de la croyance. Population et échantillon B. I. La méthode statistique. La méthode statistique a pour but de dégager certaines propriétés d’un ensemble de mesures ou d’observations et par la suite d’en déduire des règles générales et de décrire cet ensemble, appelé population. Dans les méthodes statistiques il y a des méthodes descriptives (je décris ce que je vois) ou inférentielles (déduire des règles générales à partir de ce que l’on a vu). 2/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative II. Variabilité. La variabilité est la règle dans les sciences de la vie : c’est pour cela que l’on a besoin des statistiques Ex : histogramme de la répartition des poids de naissance de nouveaux-nés (NN) Un grand nombre de NN ont un poids situé aux alentours de 3100-3500g. Il y en a beaucoup moins en dessous et au-dessus de ces valeurs. Cela donne une certaine forme à l’histogramme III. Distribution Ex : La distribution des tailles. On mesure la taille de 10 personnes. Chaque cube représentant une personne est disposé au niveau d’une échelle graduée en fonction de la taille de l’individu. L’ensemble ainsi formé représente la distribution des tailles de l’échantillon de 10 personnes. 3/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative On réalise la même expérience avec 400 personnes. La construction est plus imposante et une forme plus nette se dessine. Si on prend encore plus de personnes, une courbe se dessine : Il s’agit de la courbe normale de Gauss. Celle-ci se rencontre très fréquemment dans la nature. Sur le plan mathématique, cette courbe s’étend de -∞ à +∞. Pour n’importe quelle taille, la probabilité pour qu’elle soit sous la courbe est égale à 1. En statistique, on s’éloigne de la réalité pour pouvoir se baser sur des propriétés mathématiques solides. IV. Notion de paramètre Du fait de la variabilité, on ne peut pas donner la valeur d’une seule mesure pour résumer la population. Il faut des indices qui puissent résumer valablement les observations. On résume donc les observations par plusieurs, chiffres, plusieurs nombres appelés les paramètres de la distribution. Ex : Pour le poids de naissance, les deux paramètres qui sont suffisants pour résumer la distribution sont :la moyenne et la variance (ou l’écart type qui est la racine carré de la variance) V. Echantillon Le plus souvent la population ne peut pas être observée dans sa totalité pour des raisons pratiques (population trop importante) et financières. Dans certains cas, l’étude de la population dans sa globalité est impossible car cela conduirait à la destruction de l’individu. (Ex : étude du réglage d’une machine à fabriquer des gélules. Pour savoir si la machine met la bonne quantité de principe actif dans chaque gélule, il faut prendre un certain nombre de gélules produites et les casser afin de doser leur contenu). On tire donc de la population un échantillon qui doit être représentatif de la population, c’est-à-dire que les caractéristiques étudiées doivent être en même proportions dans l’échantillon et dans la population. 4/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative C’est cet échantillon que l’on va observer, que l’on va mesurer et à partir duquel on va calculer les paramètres et ainsi extrapoler les résultats à la population selon des méthodes statistiques. Comment faire pour avoir un échantillon représentatif de la population ? Un bon échantillon doit être une image réduite de la population. Il doit être représentatif de la population vis-àvis du caractère étudié. Toutes les caractéristiques des individus n’ont pas la même importance selon ce que l’on étudie. (Par exemple, la couleur des cheveux est inutile à prendre en compte pour étudier l’efficacité d’un traitement de l’infarctus du myocarde). Le meilleur moyen pour avoir un échantillon représentatif est de réalisé un tirage au hasard à partir d’une population. On calcule les paramètres de l’échantillon et on les extrapole à la population initiale. Si l’échantillon n’est pas représentatif de la population étudiée, on parle d’échantillon biaisé. Le choix de l’échantillon et le recueil des données constitue la phase fondamentale, la plus longue, de l’étude. Si la question posée n’est pas assez claire ou précise, le recueil des données est mauvais et l’étude est inutile. Les biais classiques sont : -Le biais de recrutement : l'inclusion d'un sujet dans l'étude est liée à un ou plusieurs des facteurs étudiés et ne repose pas sur le hasard -Effet « travailleur sain » : on le retrouve principalement dans des échantillons constitués à partir de travailleurs dont l’état de santé n'est pas celui de la population générale. (Ex : étudiants, salariés d’entreprise…il serait plus intéressant d’étudier les salariés en arrêt maladie dont la maladie peut être due à leur métier) -Effet « volontaire » : les échantillons constitués sur la base du volontariat posent des problèmes liés aux motivations personnelles pouvant être induites par un état de santé particulier ou par une exposition à des facteurs de risque dépendants du phénomène étudié. -Biais d’admission (paradoxe de Berkson) : ce biais peut se retrouver dans les études où les échantillons d'individus proviennent de services hospitaliers ayant, par exemple, un recrutement très spécifique. De ce fait l’échantillon ne sera pas représentatif de la population cible. 5/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative -Non réponse-Autosélection: l'inclusion d'un individu dans l'échantillon dépend d'une décision de sa part qui peut être liée au phénomène étudié. Par exemple si on fait appel à de nombreux individus et qu’une grande partie refuse il faut se demander si ce refus est lié au facteur étudié. -Biais de ‘prévalence-incidence » (biais de Neyman) : il correspond à la situation ou des décès précoces n'auront pas été pris en compte du fait du laps de temps entre l'exposition et son effet éventuel ou encore lorsque des cas n'ont pas été découverts. (Biais essentiellement retrouvés dans les études sur les conditions de travail). Il y a des nombreux biais auxquels il faut faire attention. Lors de la lecture d’un article il faut se demander si l’échantillon n’est pas incongru. « Appeler le statisticien quand l’expérience est faite c’est lui demander de faire un examen post mortem, il peut juste dire de quoi est morte l’étude ». Il faut s’intéresser à toute la méthode statistique qui démarre de l’idée même de cette étude, pour s’assurer que la question a été bien posée, que les sujets ont bien été recrutés, s’assurer que l’étude est bien conduite et sans biais… Le statisticien ne doit pas servir uniquement à faire les calculs, il doit suivre l’ensemble de l’étude. Ex : Un cardiologue marseillais a voulu démontré que la tension artérielle des enfants pouvait prédire leur susceptibilité à devenir hypertendu à l’âge adulte. Pendant 5 ans la tension artérielle d’enfants à été relevée par des médecins scolaires et de nombreuses données ont pu être recueillis. Cependant cette étude n’a pas pu être menée à bien car la question initiale avait été mal posée. De nombreux problèmes interfèrent avec l’étude : Premièrement, pour avoir des résultats concrets et des preuves il faut attendre que ces enfants aient atteints l’âge adulte. Ensuite le cardiologue a voulu réaliser des courbes de Tension normales mais là également ce fut impossible car la médecine scolaire ne voit pas les enfants tous les ans, parce que la valeur de la tension dépend de nombreux facteurs (couché/debout, avant/après la récréation…), autant de facteurs qui n’avaient pas été pris en compte lors du recueil des données. VI. Population 1) Quelle population ? Il faut faire attention de quelle population on parle afin de pouvoir définir un échantillon représentatif. • Étude portant sur la consommation de tabac chez les français. – La population est l'ensemble des français et la caractéristique est la consommation de tabac. Mais ceci n’est pas assez précis. Il manque une notion de temps (de quelle date à quelle date ?). Il faut préciser ce qui est sous-entendu dans le terme « français » : parle-t-on d’individus pris au hasard dans la métropole ? Inclus-t-on l’outre-mer ? Ou seulement une ou quelques régions ? Prenons nous en compte les enfants ? Les personnes âgées ? Ou seulement une tranche d’âge précise ? • Étude portant sur la composition en mercure des ampoules électriques produites dans l'usine X. 6/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative – La population est constituée des ampoules électriques produites à l'usine X et la caractéristique étudiée est la concentration en Hg. Là également il manque la notion de temps : par exemple les ampoules fabriquées avant le renouvellement des machines de l’usine doivent-elles être prise en compte ? Il faut bien définir la population étudiée car cela constitue une partie des critères d’inclusion et d’exclusion. • Une compagnie pharmaceutique veut vérifier un nouveau vaccin contre une certaine maladie. On administre ce produit à 50 patients atteints de la maladie. – La population est formée de tous les gens atteints de la maladie, l'échantillon est formé des 50 patients à qui on a administré le médicament et la caractéristique étudiée est la réponse au médicament. Il faut, dans cette étude, utiliser un échantillon contrôle : échantillon de même effectif mais dont les patients ne sont pas vaccinés. 2) Echantillonnage. La meilleure façon de faire un échantillon est de tirer au hasard (tirage au sort, tables de nombres aléatoires..). Il ne faut surtout pas choisir un échantillon par commodité mais cela se produit parfois sans que l’on s’en rende compte (ex : patients d’un service). Lorsque l’on étudie une mesure très liée au sexe, ou à la température moyenne, ou à la région… et que l’on ne veut pas éliminer ce facteur on peut faire un tirage au sort stratifié. Ceci permet d’avoir tout de même un échantillon représentatif de la population. Stratification : on subdivise la population en sous-groupes, en strates et on tire au sort dans chacune de ces strates. Chaque strate peut être représentée en fonction de son importance dans la population (dans les mêmes proportions). Il ne faut jamais oublier que l’échantillon n’est pas la population !! Du fait de la variabilité des mesures dans le monde vivant, l’échantillonnage est soumis à des fluctuations. Deux échantillons de même effectif, tirés de la même population auront tout de même des paramètres différents : on parle de fluctuation d’échantillonnage. Du fait des fluctuations d’échantillonnage, les conclusions que l’on peut tirer à partir d’un échantillon sont sujettes à erreur car ils ne représentent pas exactement la population. Le calcul d’un paramètre sur un échantillon ne permet que d’estimer le paramètre de la population avec un certain degré d’imprécision. 7/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative Nombre de malades observés sur 10 000 échantillons de 20 sujets tirés d’une population où le pourcentage vrai de malades est 30%. On tire 10000 échantillons de 20 sujets et on compte le nombre de malades dans chaque échantillon. On observe le plus fréquemment entre 6 et 7 malades par échantillons. Mais certains échantillons en contiennent 15 alors que d’autres n’en ont pas. C’est cela la fluctuation d’échantillonnage. Lorsque l’on tire un grand nombre d’échantillon d’une population, tous ne sont pas comparables exactement mais les valeurs sont malgré tout regroupées autour d’une moyenne ou d’une proportion qui correspond finalement à la moyenne ou la proportion de la population. On a en général une courbe normale centrée sur la moyenne (valeurs quantitatives) ou la proportion. La moyenne de l’échantillon est considérée comme un bon estimateur de la moyenne de la population. 3) Intervalles de fluctuation et de confiance. Quand on tire un échantillon on peut extrapoler à la population mais avec un risque d’erreur. Ce risque on peut s’en servir pour créer un intervalle. Même exemple que ci-dessus. Le pourcentage de malades dans un échantillon de 20 sujets est compris entre 15% et 50%... Mais seulement pour 95% des 10000 échantillons • C’est l’intervalle de fluctuation : il s’agit de l’intervalle d’imprécision du paramètre obtenu à partir de l’échantillon. 8/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative A partir d’un échantillon, on ne doit pas donner une valeur unique pour un pourcentage ou pour une moyenne, mais un intervalle • C’est l’intervalle de confiance Lorsque l’on a un paramètre d’un échantillon, même si on dit que la moyenne de cet échantillon est une bonne estimation de la moyenne de la population, il faut aussi donner l’intervalle de confiance pour connaitre le degré de précision de l’estimation de cette moyenne. 4) Probabilités et Distribution normale Quand on a une distribution que l’on reconnait, que l’on a étudié mathématiquement, cela permet de faire des prédictions à partir des propriétés mathématiques de cette distribution. Par exemple dans la distribution normale, on peut calculer assez facilement l’aire sous la courbe entre deux bornes. Ainsi, dans cet exemple, 68% des cas tombent entre 3,5 et 4, 95% des cas entre 3,25 et 4,25 et 99% tombent entre 3,0 et 4,5. Cela va nous aider à choisir un intervalle de confiance en fonction du risque de se tromper que l’on choisit de prendre (risque de 32%, 5% ou 1%). 9/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative 5) Estimation et intervalle de confiance. Exemple : Les résultats d’une étude réalisée sur un échantillon représentatif de nourrissons masculins français âgés de 3 mois, ont donné une estimation de la taille moyenne de 60,2 cm avec un intervalle de confiance à 95% de [59,2 ; 61,2] =>Il y aurait donc 95 chances sur 100 que la taille moyenne des nourrissons masculins français de 3 mois soit comprise entre 59,2 et 61,2 cm. Ce n’est pas la meilleure façon de formuler les résultats mais il s’agit de la forme la plus simple et le plus compréhensible pour l’interlocuteur. Si on tire 100 échantillons de même effectifs sur chacun des quels on calcule l’intervalle de confiance de la moyenne, dans au moins 95% des cas, l’intervalle comprendra la vraie moyenne et dans seulement 5% des cas l’intervalle ne la contiendra pas. Problème : selon les mesures utilisées, selon leurs magnitudes, selon la valeur de la moyenne… les bornes vont changer. Il y a une infinité de bornes et donc de calculs à faire. Il faudra à chaque fois, pour réaliser l’intervalle de confiance, faire des calculs complexes à l’aide d’intégrales afin de calculer l’aire sous la courbe. Une caractéristique de la loi normale est très intéressante pour éviter cela. Toute variable distribuée normalement, peut être transformée en variable centrée réduite en enlevant à toutes les valeurs, la valeur de la moyenne et en divisant les résultats obtenus par l’écart type. La moyenne de cette variable centrée réduite est alors égale à 0 et son écart type est de 1 L’intérêt est que l’on va pouvoir utiliser une table de la loi centrée réduite où tous les calculs d’aire et de bornes ont déjà été effectués (A vos polys de P1…) Variable centrée réduite C. Statistiques descriptives : types de variables, paramètres. Le but des statistiques descriptives consiste à décrire un ensemble d’observation à l’aide de quelques éléments caractéristiques. En général cela entraine une perte d’information. Les méthodes descriptives dépendent de la nature des variables. 10/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative I. Variables Une variable est une caractéristique ou un facteur susceptible de prendre une valeur différente pour chaque individu étudié. On distingue les variables : -Qualitatives -Quantitatives -Temporelles (évolution d’une variable dans le temps) La typologie des variables est quasi infinie. 1) Variables qualitatives Elles ne sont pas mesurables. Il s’agit de l’appartenance d’un individu à une classe parmi d’autres, avec des classes exclusives qui correspondent aux différentes modalités du caractère étudié. On dénombre les effectifs appartenant à chacune de ces classes. Attention à bien définir les modalités d’une variable qualitative pour bien classer les individus. Ex : couleur des yeux (mais attention à bien définir dans ce cas le nombre de couleurs que l’on considère)…, sexe, efficacité d’un traitement (mauvaise, moyenne ou bonne…), groupe sanguin…. On distingue 3 types de variables qualitatives : Nominales : variables sans ordre particulier entre les modalités. Ordinales : Variables où il existe un ordre entre les modalités (ex : mauvais, moyen ou bon résultat d’un traitement). Binaires : Variables avec seulement deux modalités (généralement oui/non), plus difficile à gérer et nécessite donc des méthodes particulières. 2) Variables quantitatives. Elles sont caractérisées par des valeurs numériques (on peut avec les valeurs réaliser des opérations mathématiques) On distingue : Les variables quantitatives continues : Elles peuvent prendre n’importe quelle valeur numérique dans l’intervalle d’observation et appartiennent à l’ensemble des réels (Elles peuvent avoir une infinité de chiffres après la virgule). Mathématiquement on dit que la valeur d’une variable continue a une probabilité nulle d’apparaitre du fait de l’infinité des possibilités. Cependant elles restent très utilisées en médecine mais leur précision est tout de même limitée par l’instrument de mesure. Ex : Poids 56,3 kg, Taille 1,72 m, Cholestérol 2,22 g/L Les variables quantitatives discrètes : Ce sont des variables numériques discontinues. En général ce sont des valeurs entières qui correspondent à un dénombrement. Ex : rechute d’une maladie = 3 par an, Rappel de vaccin =4 injections, Dentition=32 dents… 11/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative Les variables temporelles : Ce sont des variables quantitatives particulières utilisant les unités de temps et nécessitent donc des méthodes différentes. Elles sont souvent utilisées dans les études de survie. (Peuvent être considérées à part. C’est pour cela qu’elles n’apparaissent pas dans le schéma ci-dessous) Schéma important à retenir (Dixit le prof) II. Caractérisation des données qualitatives et ordinales unidimensionelles. Pour décrire les données d’une étude, on peut utiliser : -Des tableaux d’effectifs, la fréquence absolue -Les fréquences relatives -Les fréquences cumulées -Les diagrammes « camembert » -Les diagrammes en bâtons et mode 1) Fréquence absolue et Tableaux d’effectifs Une fréquence absolue c’est l’effectif, c’est le nombre d’individus par classe, par modalité. Ce dénombrement donne lieu à une représentation des données sous forme de tableau. Ex : Description de la variable qualitative « groupe sanguin » dans l’échantillon étudié. Sur les classes ainsi formées, les seules opérations pouvant être effectuées sont : -réaliser des classes disjointes à partir d’une seule classe -Regrouper certaines classes La seule relation qui puisse être utilisée sur ces données est la relation d’appartenance à une même classe. Ex : regroupement des individus en fonction du groupe ABO sans tenir compte du Rhésus. 12/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative 2) Fréquences relatives Pour chaque classe, c’est le rapport de son effectif au nombre total d’individus de la série des mesures. Fi=fréquence ni=effectif de la classe N=effectif total Les fréquences relatives peuvent être exprimées en pourcentage (comme dans le tableau ci-dessous). Pour cela multiplier par 100 et arrondir à l’unité. La somme des fréquences relatives doit être égale à 1 (sinon cela veut dire qu’une classe est manquante ou que les classes ne sont pas exclusives : chaque individu ne doit être comptabilisé dans une seule classe) 3) Diagramme « Camembert » On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est proportionnelle à l’effectif. Le diagramme « camembert » est bien adapté à la représentation des données qualitatives « pures ou nominales ». Il n’est pas très intéressant pour les valeurs ordinales. 13/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative 4) Diagramme en Bâtons Pour les valeurs qualitatives ordinales, le diagramme en Bâtons est plus intéressant que le camembert car on peut ordonner les modalités sur l’axe des abscisses. On peut y représenter des fréquences absolues, relatives ou cumulées. III. Caractérisation des données qualitatives à deux dimensions. Lorsque l’on a deux dimensions on peut faire un tableau de contingence. Les modalités de deux variables qualitatives permettent de constituer des classes exclusives auxquelles est affectée chaque observation La dernière colonne et la dernière ligne sont appelées les « marginales » : il s’agit des totaux de chaque variable. IV. Caractérisation des données quantitatives à une dimension Pour les variables discrètes, il est possible de représenter les données par un diagramme en bâtons comme dans le cas des données ordinales. Dans tous les cas, on peut diviser l’intervalle de variation de la variable en un certain nombre de classe et l’on dénombre toutes les mesures à l’intérieur de chaque classe. On peut ainsi construire un histogramme. Cela permet également de transformer cette variable quantitative en variable qualitative si nécessaire. (ex : classe d’âge : de 0 à 5 ans, de 5 à 10 ans…) 14/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative Pour construire un histogramme, on porte sur l’axe des abscisses les extrémités de chaque classe et on construit pour chacune d’elle un rectangle dont la surface est proportionnelle au nombre d’individu contenu dans la classe (ce qui le différencie d’un diagramme en bâton) On peut faire varier la taille des classes. L’aspect de l’histogramme garde une forme globale identique mais plus ou moins lisse et harmonieuse. V. Paramètres On distingue deux types de paramètres : Paramètres de POSITION (Médiane, quartiles, déciles, percentiles, Mode, Moyenne, Fréquences relatives) Paramètres de DISPERSION (Minimum, Maximum, étendue, intervalle interquartiles, variance, écart type, coefficient de variation) 1) Paramètres de Position Ils donnent une idée de la position des valeurs les plus fréquentes par rapport à l’axe des abscisses. Moyenne 15/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative Elle s’exprime dans les mêmes unités que les valeurs observées. C’est un indicateur de tendance centrale servant à résumer une série de données d’une variable quantitative. Elle est intéressante quand la distribution des données est symétrique de part et d’autre de cette moyenne. Si ce n’est pas le cas la médiane est plus intéressant. Médiane C’est la valeur qui partage la série des individus en 2 groupes d’effectifs égaux. Elle est moins influencée que la moyenne arithmétique par les valeurs extrêmes de la variable. La moitié des sujets présentent une valeur inférieure à la médiane et l’autre moitié présente une valeur supérieure. La médiane correspond au 2ème quartile. Quartiles Ils séparent l’échantillon en quart (j’aurais pas deviné toute seule…) Il y a 25% des individus entre deux quartiles. Le 1er quartile sépare 25% des valeurs les plus faibles et 75% des valeurs les plus élevées. Le 3ème quartile sépare 75% des valeurs les plus faibles et 25% des valeurs les plus élevées. 2) Paramètres de Dispersion La dispersion représente l’étalement des valeurs. Les Extrêmes (Min et Max) Ils sont très sensibles aux valeurs extrêmes mais permettent dans de nombreux cas de détecter les erreurs au moment de la validation des données. (Ex : enfant de 2g) Etendue Etendue= Valeur Maximale – Valeur Minimale Espace interquartile Qi= Q3 - Q1 16/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative Cet espace contient 50% des valeurs de la série. Ecart Type L’écart type d’une population est la racine carrée de sa variance L’écart type estimé d’une population à partir d’un échantillon est la racine carrée de la variance estimée. L’intérêt de l’écart type (par rapport à la variance) est qu’il a la même grandeur que la moyenne ce qui permet de dire Moyenne+/- écart type. L’écart type dans le cadre de la distribution normale est un des deux paramètres importants car il donne une idée de l’aplatissement de la courbe normale. La projection du point d’inflexion de la courbe normale sur l’axe des abscisses donne la mesure de l’écart type. De la même façon il est intéressant de savoir que l’aire sous la courbe entre moyenne - 2 écarts types et moyenne+2 écarts types est égale à 95,45% (retrouvé dans les tables de la variable centrée réduite). CONCLUSION : Une distribution peut être résumée par un paramètre de position et un paramètre de dispersion. A méditer… • « En France, en moyenne, chaque personne possède un testicule. » (Anonyme) • « Un enfant sur sept étant Chinois, nous nous sommes arrêtés à six. » (Marie-Lyse Aston) • « Il y a trois sortes de mensonges : le mensonge simple, le fieffé mensonge, et les statistiques » (Benjamin Disraeli) J’ai eu l’immense honneur (mais surtout le malheur) de prendre ce magnifique 1er ronéo de maths et du semestre…. (Pauvre de moi…) J’ai fait mon maximum pour que tout cela paraisse clair mais ce n’était pas facile… Place à la dernière dédicace de toute ma vie !! (#dernier ronéo) Un immense merci à Doria et Kimi (et ses jolis talons clap clap clap) pour avoir eu le courage suicidaire de m’accompagner dans cette torture et d’avoir égaillé les paroles du prof avec leur petite discussions plus que philosophiques (#Stroumph)<3 <3 17/18 BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative Bisou également à Clémence, Sonia, Eugénie, Maylis, Sanaba, Ryan…. (Comme d’hab ne m’en voulait pas si j’oublie des noms mais après 7h à taper cette m**** j’en ai un peu marre) Un petit coucou à mes co-stagiaires de Pédiatrie. Encore un grand bravo au comité de relecture (Vous êtes complètement fous d’avoir fait ça les gars :p) Sur ce je tire ma révérence de ronéotypeuse. Bon semestre à tous !! CR : On aura des QCM dans cette matière, le tout est de savoir s’il y aura des points négatifs (ce qui change quand même pas mal les choses). Généralement c’est une question qu’on pose au Pr responsable de la matière, qui est, pour les maths, le Pr Giorgi. Il n’interviendra pas avant le 13 Avril, si quelqu’un se motive pour lui envoyer un mail ça serait cool ! Sinon on attend patiemment la réponse en cours. « La politique est l’art d’empêcher les gens de se mêler de ce qui les regarde » Paul Valéry 18/18