MSV31 - Statistique Cyril Dalmasso 1 Introduction 2 Statistique descriptive 3 Rappels de probabilités 4 Estimation 5 Tests d’hypothèses [email protected] Université d’Evry Val d’Essonne 2014-2015 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 1 / 179 Cyril Dalmasso (UEVE) Introduction L2 Biologie - MSV31 2 / 179 Introduction Exemple 1 Introduction 2 Statistique descriptive 3 Rappels de probabilités 4 Estimation 5 Tests d’hypothèses Cyril Dalmasso (UEVE) On s’intéresse à l’effet d’une dose faible de cambendazole sur les infections des souris par la Trichinella Spiralis... L2 Biologie - MSV31 3 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 4 / 179 Introduction Introduction Exemple Statistique et biologie On s’intéresse à l’effet d’une dose faible de cambendazole sur les infections des souris par la Trichinella Spiralis. 16 souris ont été infectées par un même nombre de larves de Trichinella et ensuite réparties au hasard entre deux groupes. Le premier groupe de 8 souris a reçu du cambendazole, à raison de 10 mg par kilo, 60 heures après l’infection. Les 8 autres souris n’ont pas reçu de traitement. Au bout d’une semaine, toutes les souris ont été sacrifiées et les nombres suivants de vers adultes ont été retrouvés dans les intestins : La statistique permet de répondre à de nombreuses questions biologiques. Souris non traitées Souris traitées 51 45 55 53 62 52 45 51 68 57 71 51 46 68 79 88 L2 Biologie - MSV31 Quelle sont les valeurs normales de grandeurs biologiques (taille, poids, glycémie, ...) ? Les niveaux d’expression de deux gènes sont-ils différents ? Un nouveau traitement est-il plus efficace que le traitement de référence ? Peut-on définir de nouvelles typologies de tumeurs ? Un test de dépistage est-il fiable ? Les modifications de poids d’un individu sont-elles liées aux modifications de cholestérolémie ? Que peut-on dire au sujet d’une éventuelle efficacité du cambendazole, dosé à 10mg / kg pour le traitement des infections des souris par la Trichinella Spiralis ? Cyril Dalmasso (UEVE) Exemples 5 / 179 Cyril Dalmasso (UEVE) Introduction L2 Biologie - MSV31 6 / 179 Introduction Statistique Statistique Statistique : étude de la variabilité Définitions On appelle statistique descriptive l’ensemble des méthodes et techniques mathématiques permettant de représenter, de décrire et de résumer un ensemble de données. Définitions Le terme statistique est utilisé pour désigner trois notions distinctes : 1 Recueil de données 2 Méthodes utilisées pour analyser ces données 3 Toute grandeur calculée à partir d’observations Cyril Dalmasso (UEVE) L2 Biologie - MSV31 On appelle statistique inférentielle (ou inductive) l’ensemble des méthodes visant à modéliser un ensemble de données afin de tirer des conclusions sur un ensemble plus vaste. Remarque La statistique repose sur des modèles et des hypothèses issus des probabilités. 7 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 8 / 179 Introduction Introduction Démarche statistique Statistiques et probabilités Statistiques et probabilités sont deux aspects complémentaires de l’étude des phénomènes aléatoires Cyril Dalmasso (UEVE) L2 Biologie - MSV31 9 / 179 Cyril Dalmasso (UEVE) Introduction L2 Biologie - MSV31 10 / 179 Statistique descriptive Objectifs du cours Donner les bases nécessaires pour : Comprendre les méthodes utilisées Savoir interpréter des résultats Réaliser des analyses statistiques élémentaires Cyril Dalmasso (UEVE) L2 Biologie - MSV31 11 / 179 1 Introduction 2 Statistique descriptive 3 Rappels de probabilités 4 Estimation 5 Tests d’hypothèses Cyril Dalmasso (UEVE) L2 Biologie - MSV31 12 / 179 Statistique descriptive Statistique descriptive Statistique descriptive Vocabulaire Objectif Organiser et résumer les données afin d’en dégager les caractéristiques principales sous une forme simple et intelligible Population : ensemble (grand, voire infini) d’individus ou d’objets de même nature Remarque La statistique descriptive permet notamment d’identifier des valeurs extrêmes ou aberrantes et de vérifier certaines hypothèses de modélisation Echantillon : sous ensemble de la population Types de représentation Tableaux Série statistique : ensemble des données recueillie pour un caractère donné à partir d’un échantillon Caractère / Variable : une caractéristique de la population pouvant prendre différentes valeurs Modalité : toute valeur que peut prendre une variable Graphiques Indicateurs numériques Cyril Dalmasso (UEVE) L2 Biologie - MSV31 13 / 179 Cyril Dalmasso (UEVE) Statistique descriptive 14 / 179 Statistique descriptive Types de variables Exemple 1 Variable quantitative : variable/caractère à laquelle on peut associer un nombre discrète : ne peut prendre qu’un nombre fini ou dénombrable de valeurs continue : peut prendre toutes les valeurs d’un intervalle de l’ensemble des nombres réels Variable qualitative : variable/caractère dont les modalités ne sont pas quantifiables ordinale : variable dont les modalités peuvent être ordonnées nominale : variable dont les modalités ne peuvent pas être ordonnées Cyril Dalmasso (UEVE) L2 Biologie - MSV31 L2 Biologie - MSV31 15 / 179 Qualité de l’air Dans le cadre d’une étude portant sur la qualité de l’air à New York en 1973, les données suivantes ont été recueillies : Ozone Ensoleillement Vent Température 6 78 18.4 57 11 44 9.7 62 11 320 16.6 73 11 290 9.2 66 37 284 20.7 72 39 323 11.5 87 50 275 7.4 86 85 175 7.4 89 7 48 14.3 80 168 238 3.4 81 23 115 7.4 76 Cyril Dalmasso 24 (UEVE) - MSV31 259 L2 Biologie9.7 73 32 92 15.5 84 20 252 10.9 80 Mois 5 5 5 6 6 6 7 7 7 8 8 8 9 9 16 / 179 Statistique descriptive Tableaux Statistique descriptive Tableaux Tableaux Tableaux Tableau individu-caractère Dans le cadre d’une étude portant sur la contamination du lait par des spores de clostridia, on analyse 10 tubes de 1ml de lait et, pour chaque tube, on compte le nombre de spores présents : Définitions Soit X un caractère qualitatif ou quantitatif discret pouvant prendre k modalités (x 1 , ..., x k ) observé sur un échantillon de taille n. Indice tube 1 2 3 4 5 6 7 8 9 10 Cyril Dalmasso (UEVE) Nombre de spores 0 1 0 3 2 0 0 1 2 1 L2 Biologie - MSV31 Statistique descriptive L’effectif ni d’une modalité x i est le nombre d’individus pour lesquels la modalité x i a été observée La fréquence fi d’une modalité x i est le nombre fi tel que : fi = ni n Remarque Pour un caractère quantitatif continu, la notion de fréquences suppose une répartition des observations en k classes (chaque classe étant définie par un intervalle) 17 / 179 Cyril Dalmasso (UEVE) Tableaux L2 Biologie - MSV31 Statistique descriptive Tableaux 18 / 179 Tableaux Tableaux Définitions Soit X un caractère qualitatif ordinal ou quantitatif discret pouvant prendre k modalités (x 1 < ... < x k ) observé sur un échantillon de taille n. L’effectif cumulé Ni d’une modalité x i est le nombre d’individus pour lesquels une modalité inférieure ou égale à x i a été observée Ni = i ÿ j=1 Tableau des fréquences Nombre de spores Nombre de tubes Fréquence nj = n1 + n2 + ... + ni 0 4 0.4 1 2 0.2 2 2 0.2 3 1 0.1 La fréquence cumulée Fi d’une modalité x i est le nombre Fi tel que : Fi = Cyril Dalmasso (UEVE) i ÿ Ni = fj = f1 + f2 + ... + fi n j=1 L2 Biologie - MSV31 19 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 20 / 179 Statistique descriptive Tableaux Statistique descriptive Tableaux Graphiques Graphiques Les graphiques donnent de manière immédiate une information sur la distribution des observations. Table de contingence On compare les réactions produites par deux vaccins BCG désignés par A et B. Vaccin A B Total Réaction légère 12 29 41 Réaction moyenne 156 135 291 Ulcération Abcès Total 8 6 14 1 1 2 177 171 348 Diagramme circulaire Spores de clostridia (variable quantitative discrète) 0 3 1 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 Statistique descriptive 21 / 179 2 Cyril Dalmasso (UEVE) Graphiques L2 Biologie - MSV31 Statistique descriptive Graphiques 22 / 179 Graphiques Graphiques Les graphiques donnent de manière immédiate une information sur la distribution des observations. Diagramme des fréquences Diagramme circulaire Spores de clostridia (variable quantitative discrète) 0.3 0.4 Groupes sanguins (variable qualitative nominale) 0.0 0.1 0.2 O 0 AB 2 3 B A Cyril Dalmasso (UEVE) 1 L2 Biologie - MSV31 23 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 24 / 179 Statistique descriptive Graphiques Statistique descriptive Graphiques Graphiques Graphiques Diagramme des fréquences 300 100 200 Frequency 1500 1000 0 0 0.1 500 0.2 0.3 Frequency 2000 0.4 2500 400 Histogramme Groupes sanguins (variable qualitative nominale) 0.0 −4 −2 0 2 4 6 8 −4 vtemp O A Cyril Dalmasso (UEVE) B L2 Biologie - MSV31 Statistique descriptive 25 / 179 0 2 4 6 vtemp L2 Biologie - MSV31 Statistique descriptive 26 / 179 Graphiques Exercice I Dans le cadre d’une étude portant sur le statut dépressif de personnes âgées vivant en maison de retraite, 25 personnes tirées au hasard dans six maisons de retraite différentes ont passé le questionnaire de dépression de Beck (BDI II). Les personnes n’ayant aucune dépression ont un score inférieur à 10, une dépression légère est côté entre 10 et 18, une dépression modérée entre 19 et 29, une dépression sévère est évalué à un score supérieure à 30. Les scores obtenus sont les suivants : Boîtes à moustaches (boxplot) Lung 2 ● ● 1000 3 N(0,1) ● ● ● ● ● ● ● ● ● 0 600 −1 400 1 800 ● 2,30,20,3,48,57,48,39,20,49,13,12,20,37,10,8,0,3,8,19,23,25,26,28,11 1 200 −2 2 ● ● ● 0 −3 Cyril Dalmasso (UEVE) Graphiques Graphiques 3 4 Cyril Dalmasso (UEVE) −2 AB L2 Biologie - MSV31 27 / 179 Quelle est la population d’étude ? Quel est l’échantillon de travail ? Quel est le caractère étudié ? Comment est-il mesuré ? Quel est le type de ce caractère (qualitatif, quantitatif, nominal, ordinal, discret, continu) ? Construire le tableau des fréquences pour le caractère statut dépressif. Représenter les données sous la forme d’un diagramme des fréquences et d’un diagramme circulaire. Cyril Dalmasso (UEVE) L2 Biologie - MSV31 28 / 179 Statistique descriptive Indicateurs numérique Statistique descriptive Indicateurs numériques Indicateurs numérique Indicateurs de position Les indicateurs numériques n’ont de sens que pour des variables quantitatives Mode Indicateurs de position Mode Pour une variable discrète, le mode est la modalité x i ayant la plus grande fréquence. Moyenne empirique Pour une variable continue, le mode est le centre de la classe ayant la plus grande fréquence. Quantiles empiriques Médiane empirique Remarque Une variable peut avoir plusieurs modes. Indicateurs de dispersion Etendue Intervalle interquartile Variance empirique Cyril Dalmasso (UEVE) L2 Biologie - MSV31 Statistique descriptive 29 / 179 Cyril Dalmasso (UEVE) Indicateurs numérique L2 Biologie - MSV31 Statistique descriptive Indicateurs de position 30 / 179 Indicateurs numérique Indicateurs de position Quantiles empiriques Moyenne empirique La moyenne empirique d’un échantillon est la moyenne arithmétique des observations : n 1ÿ x̄ = xi n i=1 Le quantile empirique d’ordre 1/p (où p est un entier naturel) est la valeur q̃1/p qui partage l’échantillon en p parties de même effectif. Quantiles particuliers Médiane empirique : quantile d’ordre 1/2 Quartiles : quantile d’ordre i/4 Déciles : quantile d’ordre i/10 Centiles : quantile d’ordre i/100 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 31 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 32 / 179 Statistique descriptive Indicateurs numérique Statistique descriptive Indicateurs de position Indicateurs numérique Indicateurs de position Exemple 400 Soit x1 , ..., xn les observations d’un échantillon et soit x(1) Æ ... Æ x(n) les observations ordonnées. Médiane empirique x̃ = x( n+1 ) 2 100 Si n est pair : min 1er quartile mediane moyenne 3eme quartile max 200 Frequency Si n est impair : 300 La médiane empirique est le quantile d’ordre 1/2 : 0 Toute valeur comprise entre x( n2 ) et x( n2 +1) −4 −2 0 2 4 6 vtemp Cyril Dalmasso (UEVE) L2 Biologie - MSV31 Statistique descriptive 33 / 179 Cyril Dalmasso (UEVE) Indicateurs numérique L2 Biologie - MSV31 Statistique descriptive Indicateurs de dispersion 34 / 179 Indicateurs numérique Indicateurs de dispersion Distance interquartile L’intervalle interquartiles est l’intervalle : Etendue L’étendue mesure l’écart entre la plus grande et la plus petite des valeurs observées. Elle est définie par : [q̃1/4 ; q̃3/4 ] . Il contient la moitié la plus centrale des observations. La longueur de cet intervalle en = max (xi ) ≠ min(xi ) q = q3 ≠ q1 est appelée distance interquartile. Cette quantité est un indicateur de dispersion. Cyril Dalmasso (UEVE) L2 Biologie - MSV31 35 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 36 / 179 Statistique descriptive Indicateurs numérique Statistique descriptive Indicateurs de dispersion Indicateurs numérique Indicateurs de dispersion Variance empirique corrigée La variance empirique corrigée est définie par : Variance empirique La variance empirique d’un échantillon est définie par : s ú2 = n n 1ÿ 1ÿ s2 = (xi ≠ x n )2 = x 2 ≠ x 2n n i=1 n i=1 i n n 1 ÿ 1 ÿ (xi ≠ x n )2 = ( xi2 ≠ nx 2n ) n ≠ 1 i=1 n ≠ 1 i=1 Elle mesure l’écart quadratique moyen de l’échantillon à sa moyenne. Elle possède de meilleures propriétés que la variance empirique (voir chapitre Estimation) Ecart-type L’écart-type est défini par : Ecart-type corrigé L’écart-type corrigé est défini par : s= Ô s2 Contrairement à la variance empirique, il est exprimé dans la même unité de mesure que le caractère X . Cyril Dalmasso (UEVE) L2 Biologie - MSV31 Statistique descriptive 37 / 179 sú = Ô s ú2 Contrairement à la variance empirique, il est exprimé dans la même unité de mesure que le caractère X . Cyril Dalmasso (UEVE) Indicateurs numérique L2 Biologie - MSV31 Statistique descriptive Indicateurs numérique Graphiques Graphiques Retour sur les boîtes à moustaches (boxplot) Retour sur les boîtes à moustaches (boxplot) Lung 2 ● ● 1000 3 N(0,1) 38 / 179 ● ● ● ● ● ● ● ● ● 200 ● ● ● Cyril Dalmasso (UEVE) 0 −3 −2 −1 400 0 600 1 800 ● L2 Biologie - MSV31 39 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 40 / 179 Statistique descriptive Indicateurs numérique Rappels de probabilités Exercice II On considère la série quantitative suivante : 7709 7769 7791 7811 7834 7710 7771 7792 7812 7839 7732 7772 7795 7812 7839 7746 7772 7796 7817 7841 7749 7777 7800 7821 7845 7750 7780 7801 7823 7850 7757 7781 7802 7825 7855 7762 7783 7804 7826 7860 7765 7788 7804 7829 7873 1 Quelle est l’étendue de la série ? 2 Regrouper les données en dix classes simples à manipuler. 3 Tracer l’histogramme de la série. En déduire le mode. 4 5 7767 7790 7805 7832 7889 1 Introduction 2 Statistique descriptive 3 Rappels de probabilités 4 Estimation 5 Tests d’hypothèses Tracer la courbe des effectifs cumulés. En déduire graphiquement la valeur de la médiane. Retrouver cette valeur par le calcul. Calculer la moyenne et l’écart-type Cyril Dalmasso (UEVE) L2 Biologie - MSV31 41 / 179 Cyril Dalmasso (UEVE) Rappels de probabilités L2 Biologie - MSV31 Rappels de probabilités Expérience aléatoire, espace fondamental Evénements Définitions Une expérience aléatoire est une expérience dont l’issue ne peut être prédite avec certitude. Définitions Un événement A est un sous-ensemble de l’espace fondamental (c’est à dire : A µ P(⌦)). On appelle espace fondamental (ou univers) l’ensemble de toutes les issues possibles. On le note ⌦. Cyril Dalmasso (UEVE) L2 Biologie - MSV31 42 / 179 43 / 179 Un événement élémentaire est l’un des résultats observables à l’issue de l’expérience aléatoire. Un événement composé est un événement dont la réalisation peut se produire à partir de plusieurs événements élémentaires. Cyril Dalmasso (UEVE) L2 Biologie - MSV31 44 / 179 Rappels de probabilités Rappels de probabilités Relations entre ensembles et événements Notation ⌦ ? A (ou Ac ) AflB AfiB A\B AflB =? AµB Signification/Ensemble ensemble vide complémentaire de A dans ⌦ intersection entre A et B réunion de A et B A moins B (A privé de B) A et B disjoints A inclu dans B Cyril Dalmasso (UEVE) Probabilité Interprétation/Evénement événement certain événement impossible événement contraire de A (A est réalisé si et seulement si A ne l’est pas) A et B sont tous les deux réalisés A est réalisé ou B est réalisé A est réalisé mais B ne l’est pas Définition axiomatique (Kolmogorov-1933) Une probabilité est une application P : ⌦ æ [0, 1] telle que : pour tout A œ ⌦, on a P(A) Ø 0, P(⌦) = 1, Si A fl B = ÿ, alors P(A fi B) = P(A) + P(B). A et B sont deux événements incompatibles A implique B (si A est réalisé, alors B l’est aussi) L2 Biologie - MSV31 45 / 179 Remarque Une probabilité est une mesure. Définition On appele espace probabilisé le triplet (⌦, P(⌦), P) Cyril Dalmasso (UEVE) Rappels de probabilités L2 Biologie - MSV31 46 / 179 Rappels de probabilités Probabilité Probabilité conditionnelle Propriétés élémentaires i) P(A) = 1 ≠ P(A) Définition Soit A et B deux événements tels que P(B) ”= 0. La probabilité conditionnelle de A par rapport à B, notée P(A|B) ou PB (A) (probabilité de A sachant B), est donnée par : ii) P(?) = 0 iii) A µ B ∆ P(A) Æ P(B) iv) 0 Æ P(A) Æ 1 v) P(A fi B) = P(A) + P(B) ≠ P(A fl B) P(A|B) = Remarque P(A fl B) P(B) P(A) = 0 ne signifie pas que A est un événement impossible. Cyril Dalmasso (UEVE) L2 Biologie - MSV31 47 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 48 / 179 Rappels de probabilités Rappels de probabilités Formule des probabilités totales Formule de Bayes Définition Soit E un ensemble. A1 , A2 , ..., An constituent une partition de E si : Formule de Bayes ’i œ {1, ..., n}; Ai ”= ÿ Si P(A) ”= 0 et P(B) ”= 0 alors ’i ”= j; Ai fl Aj = ÿ A1 fi A2 fi ... fi An = E P(A|B) = Formule des probabilités totales Si les événements B1 , B2 , ..., Bn forment une partition de ⌦ Si les événements A1 , A2 , ..., An forment une partition de ⌦ alors P(Ai )P(B|Ai ) P(Ai |B) = qn i=1 P(Ai )P(B|Ai ) P(A) = P(B1 )P(A|B1 ) + P(B2 )P(A|B2 ) + ... + P(Bn )P(A|Bn ) = n ÿ i=1 Cyril Dalmasso (UEVE) P(Bi )P(A|Bi ) L2 Biologie - MSV31 49 / 179 Cyril Dalmasso (UEVE) Rappels de probabilités L2 Biologie - MSV31 50 / 179 Rappels de probabilités Exercice III Indépendance On considère un tissu de cellules parmi lesquelles un certain nombre sont infectées par un virus. Après traitement d’une partie des cellules, on remarque que sur les 70% de cellules non traitées, 20% sont atteintes du virus alors que sur les 30% de cellules traitées, 10% sont encore atteintes du virus. On prélève au hasard une cellule (et on admet que chaque cellule a la même probabilité d’être prélevée). 1 Quelle est la probabilité que cette cellule soit infectée ? 2 Sachant la cellule infectée, quelle est la probabilité qu’elle soit traitée ? Cyril Dalmasso (UEVE) P(A)P(B|A) P(B) L2 Biologie - MSV31 51 / 179 Définition Deux événements A et B sont dits indépendants si et seulement si P(A fl B) = P(A)P(B) On note A ‹ ‹B Remarques Si A et B sont indépendants, alors P(A|B) = P(A) … P(B|A) = P(B) Attention à ne pas confondre indépendance et incompatibilité. Cyril Dalmasso (UEVE) L2 Biologie - MSV31 52 / 179 Rappels de probabilités Rappels de probabilités Variables aléatoires réelles Variables aléatoires réelles Définitions Une variable aléatoire réelle X est une application qui à tout élément Ê de ⌦ associe un nombre réel x X Définition Une variable aléatoire discrète est une variable aléatoire dont le domaine de variation contient un nombre fini ou une infinité dénombrable de valeurs. : ⌦æR Ê ‘æ x Une variable aléatoire continue est une variable aléatoire dont le domaine de variation contient une infinité non dénombrable de valeurs. On appelle domaine de variation (ou support) de X l’ensemble Dx ™ R des valeurs que peut prendre la variable aléatoire X . Remarques On note généralement X la variable aléatoire et x sa réalisation (c’est à dire x = X (Êi ) où Êi œ ⌦). Cyril Dalmasso (UEVE) L2 Biologie - MSV31 53 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 Rappels de probabilités 54 / 179 Rappels de probabilités Loi de probabilité Propriétés Définitions Soit X une variable aléatoire discrète telle que ⌦X = x1 , ..., xN . La loi de probabilité de X est définie/caractérisée par sa fonction de probabilité qui donne, pour tout i œ 1, ..., N Cas continu pi = P(X = xi ) Ø 0 ’xi œ ⌦ f (x ) Ø 0 ’x œ R N ÿ pi = P(X = xi ) i=1 Soit X une variable aléatoire continue. On appelle densité de probabilité la fonction f (x ) définie par : f (x ) = lim”æ0 Cas discret ’A µ ⌦ : P(X œ [x ; x + ”]) ” ⁄ +Œ pi = 1 P(A) = ÿ i:xi œA ≠Œ pi f (x )dx = 1 ’[a, b] µ R : P(X œ [a, b]) = ⁄ b a f (x )dx Remarque : Pour ” proche de 0, f (x )dx ¥ P(X œ [x ; x + ”]) Cyril Dalmasso (UEVE) L2 Biologie - MSV31 55 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 56 / 179 Rappels de probabilités Rappels de probabilités Propriétés Fonction de répartition Définition On appelle fonction de répartition la fonction F définie par : F Remarque xi ‘≠æ P(X Æ xi ) f (x ) Ø 0’x œ R ⁄ +Œ ≠Œ Propriétés f (x )dx = 1 Toute fonction vérifiant ces deux propriétés est une densité de probabilité. i) F (x ) œ [0, 1] ii) F est une fonction croissante iii) iv) v) Cyril Dalmasso (UEVE) L2 Biologie - MSV31 57 / 179 lim F (x ) = 0 x æ≠Œ lim F (x ) = 1 x æ+Œ Pour une variable aléatoire discrète, F est une fonction en escaliers Pour une variable aléatoire continue, F est une fonction continue Cyril Dalmasso (UEVE) Rappels de probabilités P(xi ) P(xi ) = F (xi ) ≠ F (xi≠1 ) Cas continu ⁄: F (x ) = x ≠Œ f (t)dt … f (x ) = F Õ (x ) Pour tout intervalle [a, b] µ R : P(X œ [a, b]) = F (b) ≠ F (a) = ⁄ b a f (x )dx E (X ) = N ÿ xi pi i=1 ⁄ +Œ ≠Œ (cas discret) xf (x )dx (cas continu) Remarques L’espérance ne fait pas nécessairement partie de Dx L’espérance n’est pas toujours définie Il est équivalent de spécifier f (x ) ou F (x ) L2 Biologie - MSV31 Définition L’espérance E (X ) d’une variable aléatoire X est définie par : E (X ) = Remarque Cyril Dalmasso (UEVE) 58 / 179 Espérance Liens entre fonction de répartition et fonction de probabilité ou densité Cas discret :ÿ xi Æx L2 Biologie - MSV31 Rappels de probabilités Fonction de répartition F (x ) = : DX ≠æ [0, 1] 59 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 60 / 179 Rappels de probabilités Rappels de probabilités Espérance Espérance Propriété Propriétés (linéarité de l’espérance) Soit h une fonction telle que h(x ) est définie. E (h(X )) = E (h(X )) = Cyril Dalmasso (UEVE) N ÿ E (aX + b) = aE (X ) + b h(xi )pi i=1 ⁄ +Œ ≠Œ h(x )f (x )dx E (X + Y ) = E (X ) + E (Y ) (cas discret) Attention : E (XY ) ”= E (X )E (Y ) (cas continu) L2 Biologie - MSV31 61 / 179 Cyril Dalmasso (UEVE) Rappels de probabilités L2 Biologie - MSV31 62 / 179 Rappels de probabilités Espérance Variance et écart-type Propriétés Définitions La variance Var (X ) d’une variable aléatoire X est définie par : Si la courbe de f (x ) est symétrique par rapport à c, alors E (X ) = m = c Si f (x ) est une fonction paire (c’est à dire si sa courbe est symétrique par rapport à 0, alors E (X ) = m = 0 (espérance = médiane) Ë Var (X ) = E (X ≠ E (X ))2 L’écart-type est défini par ‡= Cyril Dalmasso (UEVE) L2 Biologie - MSV31 63 / 179 Cyril Dalmasso (UEVE) Ò È Var (X ) L2 Biologie - MSV31 64 / 179 Rappels de probabilités Rappels de probabilités Variance et écart-type Covariance Théorème (de König-Huygens) Définition Pour un couple de variables aléatoires (X , Y ), la covariance est définie par : Pour toute variable aléatoire réelle X , on a : Var (X ) = E (X 2 ) ≠ E (X )2 Cov (X , Y ) = E ((X ≠ E (X ))(Y ≠ E (Y ))) Propriétés Comme l’espérance, la variance n’existe pas toujours = E (XY ) ≠ E (X )E (Y ) Remarques Var (X ) Ø 0 X‹ ‹ Y ∆ Cov (X , Y ) = 0 mais Cov (X , Y ) = 0 ; X ‹ ‹Y Var (aX + b) = a2 Var (X ) Var (X ) = Cov (X , X ) Var (X + Y ) = Var (X ) + Var (Y ) + 2Cov (X , Y ) Cyril Dalmasso (UEVE) L2 Biologie - MSV31 65 / 179 Cyril Dalmasso (UEVE) Rappels de probabilités Exercice IV Définition Pour un couple de variables aléatoires (X , Y ), le coéfficient de corrélation est défini par : Propriété 66 / 179 Rappels de probabilités Coéfficient de corrélation Cor (X , Y ) = flX ,Y = L2 Biologie - MSV31 Une variable aléatoire a pour densité : Cov (X , Y ) Var (X )Var (Y ) f (x ) = I a + bx 2 0 si 0 < x < 1 sinon Déterminer a et b si l’espérance de cette densité est égale à 2/3. flX ,Y œ [≠1; 1] Cyril Dalmasso (UEVE) L2 Biologie - MSV31 67 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 68 / 179 Rappels de probabilités Rappels de probabilités Médiane Quantiles Définition La médiane d’une variable aléatoire est une mesure de la centralité de cette variable. Il s’agit de la valeur m telle que : Définition Le p-quantile (parfois appelé p-fractile) d’une variable aléatoire X est la valeur qp telle que : P(X Æ qp ) = p; p œ [0, 1] P(X Æ m) = 1/2 Remarque Dans le cas discret, la médiane ne peut être identifiée que si l’une des valeurs de la fonction F (x ) est égale à 1/2. Cyril Dalmasso (UEVE) L2 Biologie - MSV31 … qp = F ≠1 (p) 69 / 179 Cyril Dalmasso (UEVE) Rappels de probabilités L2 Biologie - MSV31 70 / 179 Rappels de probabilités Quantiles Quantiles Quantiles particuliers Quantiles particuliers Les déciles q0.1 , q0.2 , ..., q0.9 coupent DX en dix intervalles tels que la probabilité d’être dans chacun d’eux vaut 1/10. Les valeurs q0.1 , q0.2 , ..., q0.9 sont appelées premier décile, deuxième décile, ..., neuvième décile (respectivement). La médiane (définie précédemment) n’est rien d’autre que le 0,5 quantile q0.5 coupant DX en deux intervalles tels que la probabilité d’être dans chacun d’eux vaut 1/2. Les quartiles q0.25 , q0.5 , q0.75 coupent DX en quatre intervalles tels que la probabilité d’être dans chacun d’eux vaut 1/4. Les valeurs q0.25 , q0.5 et q0.75 sont appelées premier quartile, deuxième quartile (ou médiane) et troisième quartile (respectivement). Cyril Dalmasso (UEVE) L2 Biologie - MSV31 71 / 179 Les centiles q0.01 , q0.02 , ..., q0.99 coupent DX en cent intervalles tels que la probabilité d’être dans chacun d’eux vaut 1/100. Les valeurs q0.01 , q0.02 , ..., q0.99 sont appelées premier centile, deuxième centile, ..., quatre-vingt-dix-neuvième centile (respectivement). Cyril Dalmasso (UEVE) L2 Biologie - MSV31 72 / 179 Rappels de probabilités Rappels de probabilités Distributions usuelles Distributions usuelles Lois continues Lois discrètes Lois de probabilité discrètes Uniforme X ≥ U({1, 2, ..., n}) nœN Bernoulli X ≥ B(p) 0ÆpÆ1 Binomiale X ≥ B(n, p) n entier > 0, 0 Æ p Æ 1 Poisson X ≥ P(⁄) ⁄>0 Géométrique X ≥ G(p) 0ÆpÆ1 Binomiale négative X ≥ BN(n, p) 0ÆpÆ1 Fct de probabilité E (X ) Var (X ) 1 n n+1 2 12 p x (1 ≠ p)1≠x si x = 0, 1 Cnx p x (1 ≠ p)n≠x si x=0,1,...,n n2 ≠1 p p(1 ≠ p) np e ≠⁄ ⁄x x! np(1 ≠ p) ⁄ ⁄ p(1 ≠ p)x ≠1 si x = 1, 2, ... 1 p 1≠p p2 Cxn≠1 p n (1 ≠ p)x ≠n ≠1 si x = n, n + 1, ... n p n(1≠p) p si x = 0, 1, 2, ... Genèse Lancer d’une pèce de monnaie avec P(pile) = p Loi de la somme de n v.a. indépendantes de loi B(p) Limite de la loi binomiale lorsque n æ Œ, npn æ ⁄ > 0 et pn æ 0 Nombre de lancers nécessaire pour l’obtention du premier pile avec P(pile) = p Loi de la somme de n v.a. indépendantes de loi G(p) Lois de probabilité continues Uniforme X ≥ U[a, b] a<b Exponentielle X ≥ Exp(⁄) ⁄>0 Fct de densité ‹ >0 1 ⁄ - µ ‡2 1 x (n≠2)/2 e ≠x /2 2n/2 (n/2) - ‹ 2‹ ( n+1 ) 2 Ô 2 n+1 nfi ( n )(1+ x ) 2 2 n - 0 ‹ ‹≠2 ‡ fi[(x ≠µ)2 +‡ 2 ] - si ‹ Ø 2 n’existe pas si ‹ Ø 3 n’existe pas – — – —2 Ô 1 2fi‡ 2 Student X ≥ ‰2‹ ‹ >0 Cauchy X ≥ C (µ, ‡) µ œ R, ‡ 2 œ R+ L2 Biologie - MSV31 73 / 179 (x ≠µ)2 ≠1 e 2 ‡2 — – –≠1 ≠x — x e (–) Gamma X ≥ (–, —) – > 0, — > 0 Cyril Dalmasso (UEVE) Var (X ) (1 ≠ e ≠⁄x )1R+ (x ) ⁄e ≠⁄x 1R+ (x ) + µ œ R, ‡ œ R Khi-deux X ≥ ‰2‹ E (X ) (b≠a)2 12 1 ⁄2 Normale X ≥ N(µ, ‡ 2 ) 2 Fct de répartition x ≠a 1 (x ) b≠a [a,b] 1 1 (x ) b≠a [a,b] - si x Ø 0 Cyril Dalmasso (UEVE) a+b 2 + 1[b,+Œ[ (x ) L2 Biologie - MSV31 Rappels de probabilités 74 / 179 Rappels de probabilités Loi normale Loi normale Représentation graphique 0.8 0.6 2fi‡ 2 2 1 (x ≠µ) ‡2 e≠ 2 f(x) 1 mu=0 // sigma^2=0.2 mu=0 // sigma^2=1 mu=0 // sigma^2=5 mu=−2 // sigma^2=0.5 0.4 f (x ) = Ô 1.0 Définition Une variable aléatoire X suit une loi normale (ou loi de Gauss-Laplace) de paramètres µ et ‡ 2 si sa densité f est définie par : Notation 0.0 0.2 X ≥ N(µ, ‡ 2 ) −4 −2 0 2 4 x Cyril Dalmasso (UEVE) L2 Biologie - MSV31 75 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 76 / 179 Rappels de probabilités Rappels de probabilités Loi normale Loi normale Fonction de répartition F (x ) = ⁄ x Ô 1 2 1 (x ≠µ) ‡2 e≠ 2 Stabilité par combinaisons linéaires dx 2fi‡ 2 Il n’existe pas de forme analytique de la fonction de répartition F . Si X est une variable aléatoire telle que X ≥ N(µ, ‡ 2 ), alors : Espérance et variance Si X et Y sont deux variables aléatoires indépendantes telles que X ≥ N(µ1 , ‡12 ) et Y ≥ N(µ2 , ‡22 ), alors : ≠Œ aX + b ≥ N(aµ + b, a2 ‡ 2 ) E (X ) = µ X + Y ≥ N(µ1 + µ2 , ‡12 + ‡22 ) Var (X ) = ‡ 2 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 77 / 179 Cyril Dalmasso (UEVE) Rappels de probabilités L2 Biologie - MSV31 78 / 179 Rappels de probabilités Loi normale centrée réduite Loi normale centrée réduite 0.4 0.5 Définition On appelle loi normale centrée réduite la loi N(0, 1). Propriété f(x) 0.2 0.1 sa fonction de 0.0 Notations Par convention, on note „ la densité d’une N(0, 1) et répartition. 0.3 X ≠µ Si X ≥ N(µ, ‡ 2 ), alors Y = Ô ≥ N(0, 1) ‡2 −4 −2 0 2 4 x Cyril Dalmasso (UEVE) L2 Biologie - MSV31 79 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 80 / 179 Rappels de probabilités Rappels de probabilités Loi normale centrée réduite Loi des grands nombres Si X1 , ..., Xn sont n variable aléatoires indépendantes et identiquement distribuées telles que : Propriétés de la loi normale centrée réduite „ est une fonction paire E (|X1 |) < Œ et (x ) = 1 ≠ (≠x ) P(|X | Æ x ) = P(≠x Æ X Æ x ) = 2( (x ) ≠ 1/2) Alors P(|X | Ø x ) = P((X Æ ≠x ) fl (X Ø x )) = 2(1 ≠ (x )) Cyril Dalmasso (UEVE) L2 Biologie - MSV31 81 / 179 L2 Biologie - MSV31 82 / 179 Rappels de probabilités Loi des grands nombres Théorème de la limite centrale 10.5 11.0 Théorème Soit X1 , ..., Xn n variables aléatoires indépendantes et identiquement distribuées d’espérance µ et de variance ‡ 2 : 9.5 10.0 Y = …Y = 8.5 9.0 vecteurmoy p.s. Xn ≠æ µ Cyril Dalmasso (UEVE) Rappels de probabilités E (X1 ) = µ n ÿ i=1 1 n 1 Xi ≠æN nµ, n‡ 2 L qn i=1 Xi Ò ‡2 n ≠µ 2 ≠æN(0, 1) L Remarque 0 200 400 600 800 Ce théorème est appelé théorème de la limite centrale (TLC) ou théorème de la limite centrée (TLC) ou théorème central limite (TCL) 1000 1:n Cyril Dalmasso (UEVE) L2 Biologie - MSV31 83 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 84 / 179 Rappels de probabilités Rappels de probabilités Théorème de la limite centrale Théorème de la limite centrale Illustration Approximations de lois 1.5 X ≥ B(n, p) X ≥ P(µ) =∆ n Ø 30 ; p Æ 0.1 »µ Ø 20 1.0 µ = np X ≥ B(n, p) Density n = 100 N(µ, ‡ 2 ) =∆ n Ø 30 ; np Ø 5 ; n(1 ≠ p) Ø 5 « µ = np ; ‡ 2 = np(1 ≠ p) 0.5 ‡2 = µ n Ø 30 X = Y1 + ... + Yn 0.0 avec Y1 , ..., Yn iid −4 −2 0 2 4 moysd Cyril Dalmasso (UEVE) L2 Biologie - MSV31 85 / 179 Cyril Dalmasso (UEVE) Rappels de probabilités Satellites de la loi normale - Loi du ‰2 1 x (n≠2)/2 e ≠x /2 2n/2 (n/2) k=1 k=2 k=3 k=4 k=5 0.6 0.8 Xi2 ≥ ‰2n f(x) i=1 f (y ) = 0.2 0.4 . Densité 1.0 Définition Soient X1 , ..., Xn n variables aléatoires indépendantes et identiquement distribuées de loi normale centrée réduite. La variable aléatoire Y = X12 + ... + Xn2 suit une loi continue appelée loi du ‰2 à n degrés de liberté : n ÿ 86 / 179 Rappels de probabilités Satellites de la loi normale - Loi du ‰2 Y = L2 Biologie - MSV31 0.0 Propriétés Si Y1 ≥ ‰2n1 et Y2 ≥ ‰2n2 avec Y1 ‹ ‹ Y2 , alors Y = Y1 + Y2 ≥ ‰2n1 +n2 0 2 4 6 8 x Si Y ≥ ‰2n , alors E (Y ) = n et Var (Y ) = 2n Cyril Dalmasso (UEVE) L2 Biologie - MSV31 87 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 88 / 179 Rappels de probabilités Rappels de probabilités Satellites de la loi normale - Loi de Student Satellites de la loi normale - Loi de Student Définition Soient X et Y deux variables aléatoires indépendantes telles que X ≥ N(0, 1) et Y ≥ ‰2n . La variable aléatoire T = X / Y /n suit une loi continue appelée loi de Student à n degrés de liberté : Densité Var (T ) = 0.5 x 2 n+1 2 n ) 0.3 0.4 k=1 k=2 k=5 k=10 k=1e+05 0.1 n n≠2 0.0 E (T ) = 0 nfi ( n2 )(1 + 0.2 Propriétés X ≥ tn Y /n ( n+1 2 ) f(x) T = f (t) = Ô si n > 2 Cyril Dalmasso (UEVE) −4 −2 0 2 4 x L2 Biologie - MSV31 89 / 179 Cyril Dalmasso (UEVE) Rappels de probabilités L2 Biologie - MSV31 90 / 179 Rappels de probabilités Satellites de la loi normale - Loi de Fisher-Snedecor Satellites de la loi normale - Loi de Fisher-Snedecor Définition Soient Y1 et Y2 deux variables aléatoires indépendantes telles que Y1 ≥ ‰2n1 et Y2 ≥ ‰2n2 . La variable aléatoire Z = (Y1 /n1 )/(Y2 /n2 ) suit une loi continue appelée loi de Fisher à n1 et n2 degrés de liberté : Densité 2 d2=1 d2=1 d2=2 // d2=1 // d2=100 0.5 1.0 1.5 d1=1 // d1=2 // d1=5 // d1=100 d1=100 0.0 Z1 ≥ F (n2 ; n1 ) ∆ Z2 = 1/Z1 ≥ F(n1 ; n2 ) T ≥ tn ∆ Z = T 2 ≥ F(1; n) L2 Biologie - MSV31 2 x n1 /2≠1 (n2 + n1 x ) 2.0 Y1 /n1 ≥ F(n1 ; n2 ) Y2 /n2 Remarques Cyril Dalmasso (UEVE) ! n1 " 2 ! n2 " n1n1 /2 n2n2 /2 f (x ) = f(x) Z= ! n1 +n2 " 0 1 2 3 4 5 x 91 / 179 Cyril Dalmasso (UEVE) L2 Biologie - MSV31 92 / 179