Organisation Cours - 16,5 heures Cyril DALMASSO ([email protected]) MSV31 - Statistique TD - 16,5 heures Alia DEHMAN ([email protected]) Cyril DALMASSO ([email protected]) Cyril Dalmasso [email protected] Université d’Evry Val d’Essonne Evaluation Note finale = 1/3 DS (vendredi 6 novembre 2015) + 2/3 Partiel 2015-2016 Rappel La présence en TD est OBLIGATOIRE Justificatifs d’absences à fournir à la scolarité Cyril Dalmasso (UEVE) L2 SDV - MSV31 1 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 2 / 175 Introduction 1 Introduction 1 Introduction 2 Rappels de statistique descriptive 2 Rappels de statistique descriptive 3 Rappels de probabilités 3 Rappels de probabilités 4 Estimation 4 Estimation 5 Tests d’hypothèses 5 Tests d’hypothèses Cyril Dalmasso (UEVE) L2 SDV - MSV31 3 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 4 / 175 Introduction Introduction Exemple introductif Exemple introductif On s’intéresse à l’effet d’une dose faible de cambendazole sur les infections des souris par la Trichinella Spiralis... On s’intéresse à l’effet d’une dose faible de cambendazole sur les infections des souris par la Trichinella Spiralis. 16 souris ont été infectées par un même nombre de larves de Trichinella et ensuite réparties au hasard entre deux groupes. Le premier groupe de 8 souris a reçu du cambendazole, à raison de 10 mg par kilo, 60 heures après l’infection. Les 8 autres souris n’ont pas reçu de traitement. Au bout d’une semaine, toutes les souris ont été sacrifiées et les nombres suivants de vers adultes ont été retrouvés dans les intestins : Souris non traitées Souris traitées 51 45 55 53 62 52 45 51 68 57 71 51 46 68 79 88 Que peut-on dire au sujet d’une éventuelle efficacité du cambendazole, dosé à 10mg / kg pour le traitement des infections des souris par la Trichinella Spiralis ? Cyril Dalmasso (UEVE) L2 SDV - MSV31 5 / 175 Cyril Dalmasso (UEVE) Introduction L2 SDV - MSV31 6 / 175 Introduction Statistique et biologie Statistique La statistique permet de répondre à de nombreuses questions biologiques. Exemples Statistique : étude de la variabilité Quelle sont les valeurs normales de grandeurs biologiques (taille, poids, glycémie, ...) ? Définitions Le terme statistique est utilisé pour désigner trois notions distinctes : Les niveaux d’expression de deux gènes sont-ils différents ? Un nouveau traitement est-il plus efficace que le traitement de référence ? Peut-on définir de nouvelles typologies de tumeurs ? Un test de dépistage est-il fiable ? 1 Recueil de données 2 Méthodes utilisées pour analyser ces données 3 Toute grandeur calculée à partir d’observations Les modifications de poids d’un individu sont-elles liées aux modifications de cholestérolémie ? Cyril Dalmasso (UEVE) L2 SDV - MSV31 7 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 8 / 175 Introduction Introduction Statistique Démarche statistique Définitions On appelle statistique descriptive l’ensemble des méthodes et techniques mathématiques permettant de représenter, de décrire et de résumer un ensemble de données. On appelle statistique inférentielle (ou inductive) l’ensemble des méthodes visant à modéliser un ensemble de données afin de tirer des conclusions sur un ensemble plus vaste. Remarque La statistique repose sur des modèles et des hypothèses issus des probabilités. Cyril Dalmasso (UEVE) L2 SDV - MSV31 9 / 175 Cyril Dalmasso (UEVE) Introduction L2 SDV - MSV31 10 / 175 Introduction Statistiques et probabilités Objectifs du cours Statistiques et probabilités sont deux aspects complémentaires de l’étude des phénomènes aléatoires Donner les bases nécessaires pour : Comprendre les méthodes utilisées Savoir interpréter des résultats Réaliser des analyses statistiques élémentaires Cyril Dalmasso (UEVE) L2 SDV - MSV31 11 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 12 / 175 Rappels de statistique descriptive Rappels de statistique descriptive Statistique descriptive 1 Introduction 2 Rappels de statistique descriptive 3 Rappels de probabilités 4 Estimation 5 Tests d’hypothèses Objectif Organiser et résumer les données afin d’en dégager les caractéristiques principales sous une forme simple et intelligible Remarque La statistique descriptive permet notamment d’identifier des valeurs extrêmes ou aberrantes et de vérifier certaines hypothèses de modélisation Types de représentation Tableaux Graphiques Indicateurs numériques Cyril Dalmasso (UEVE) L2 SDV - MSV31 13 / 175 Rappels de statistique descriptive L2 SDV - MSV31 14 / 175 Rappels de statistique descriptive Vocabulaire Types de variables Population : ensemble (grand, voire infini) d’individus ou d’objets de même nature Echantillon : sous ensemble de la population Caractère / Variable : une caractéristique de la population pouvant prendre différentes valeurs Modalité : toute valeur que peut prendre une variable Série statistique : ensemble des données recueillie pour un caractère donné à partir d’un échantillon Cyril Dalmasso (UEVE) Cyril Dalmasso (UEVE) L2 SDV - MSV31 15 / 175 Variable quantitative : variable/caractère à laquelle on peut associer un nombre discrète : ne peut prendre qu’un nombre fini ou dénombrable de valeurs continue : peut prendre toutes les valeurs d’un intervalle de l’ensemble des nombres réels Variable qualitative : variable/caractère dont les modalités ne sont pas quantifiables ordinale : variable dont les modalités peuvent être ordonnées nominale : variable dont les modalités ne peuvent pas être ordonnées Cyril Dalmasso (UEVE) L2 SDV - MSV31 16 / 175 Rappels de statistique descriptive Rappels de statistique descriptive Tableaux Exemple 1 Tableaux Qualité de l’air Dans le cadre d’une étude portant sur la qualité de l’air à New York en 1973, les données suivantes ont été recueillies : Tableau individu-caractère Dans le cadre d’une étude portant sur la contamination du lait par des spores de clostridia, on analyse 10 tubes de 1ml de lait et, pour chaque tube, on compte le nombre de spores présents : Ozone Ensoleillement Vent Température 6 78 18.4 57 11 44 9.7 62 11 320 16.6 73 11 290 9.2 66 37 284 20.7 72 39 323 11.5 87 50 275 7.4 86 85 175 7.4 89 7 48 14.3 80 168 238 3.4 81 23 115 7.4 76 Cyril Dalmasso 24 (UEVE) L2 SDV -9.7 MSV31 259 73 32 92 15.5 84 20 Rappels de statistique 252 descriptive 10.9 80 Tableaux 23 220 10.3 78 Tableaux Mois 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 Indice tube 1 2 3 4 5 6 7 8 9 10 17 / 175 Cyril Dalmasso (UEVE) 18 / 175 Tableaux Tableaux L’effectif ni d’une modalité x i est le nombre d’individus pour lesquels la modalité x i a été observée La fréquence fi d’une modalité x i est le nombre fi tel que : Définitions Soit X un caractère qualitatif ordinal ou quantitatif discret pouvant prendre k modalités (x 1 < ... < x k ) observé sur un échantillon de taille n. L’effectif cumulé Ni d’une modalité x i est le nombre d’individus pour lesquels une modalité inférieure ou égale à x i a été observée Ni = ni fi = n Remarque Pour un caractère quantitatif continu, la notion de fréquences suppose une répartition des observations en k classes (chaque classe étant définie par un intervalle) L2 SDV - MSV31 L2 SDV - MSV31 Rappels de statistique descriptive Définitions Soit X un caractère qualitatif ou quantitatif discret pouvant prendre k modalités (x 1 , ..., x k ) observé sur un échantillon de taille n. Cyril Dalmasso (UEVE) Nombre de spores 0 1 0 3 2 0 0 1 2 1 19 / 175 i ÿ j=1 nj = n1 + n2 + ... + ni La fréquence cumulée Fi d’une modalité x i est le nombre Fi tel que : Fi = Cyril Dalmasso (UEVE) i ÿ Ni = fj = f1 + f2 + ... + fi n j=1 L2 SDV - MSV31 20 / 175 Rappels de statistique descriptive Tableaux Rappels de statistique descriptive Tableaux Tableaux Tableaux Table de contingence On compare les réactions produites par deux vaccins BCG désignés par A et B. Tableau des fréquences Nombre de spores Nombre de tubes Fréquence Cyril Dalmasso (UEVE) 0 4 0.4 1 3 0.3 2 2 0.2 3 1 0.1 L2 SDV - MSV31 Rappels de statistique descriptive Vaccin A B Total 21 / 175 Réaction légère 12 29 41 Réaction moyenne 156 135 291 Cyril Dalmasso (UEVE) Graphiques Ulcération Abcès Total 8 6 14 1 1 2 177 171 348 L2 SDV - MSV31 Rappels de statistique descriptive 22 / 175 Graphiques Graphiques Graphiques Les graphiques donnent de manière immédiate une information sur la distribution des observations. Les graphiques donnent de manière immédiate une information sur la distribution des observations. Diagramme circulaire Diagramme circulaire Spores de clostridia (variable quantitative discrète) Groupes sanguins (variable qualitative nominale) 0 O AB 3 1 B A Cyril Dalmasso (UEVE) 2 L2 SDV - MSV31 23 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 24 / 175 Rappels de statistique descriptive Graphiques Rappels de statistique descriptive Graphiques Graphiques Diagramme des fréquences Diagramme des fréquences Spores de clostridia (variable quantitative discrète) Groupes sanguins (variable qualitative nominale) 0.0 0.0 0.1 0.1 0.2 0.2 0.3 0.3 0.4 0.4 Graphiques 0 1 Cyril Dalmasso (UEVE) 2 3 L2 SDV - MSV31 Rappels de statistique descriptive O 25 / 175 A Cyril Dalmasso (UEVE) Graphiques B L2 SDV - MSV31 Rappels de statistique descriptive Graphiques Graphiques Histogramme Boîtes à moustaches (boxplot) Lung 2 4 6 8 800 ● ● ● ● ● ● 600 0 400 −1 −2 0 2 4 200 0 ● ● ● −4 vtemp Cyril Dalmasso (UEVE) ● −2 −3 0 ● 1 300 100 0 0 −2 ● ● 200 Frequency 1500 1000 500 Frequency 2000 2 1000 3 400 2500 ● ● 26 / 175 Graphiques N(0,1) −4 AB 6 vtemp L2 SDV - MSV31 27 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 28 / 175 Rappels de statistique descriptive Graphiques Rappels de statistique descriptive Exercice I Indicateurs numériques Dans le cadre d’une étude portant sur le statut dépressif de personnes âgées vivant en maison de retraite, 25 personnes tirées au hasard dans six maisons de retraite différentes ont passé le questionnaire de dépression de Beck (BDI II). Les personnes n’ayant aucune dépression ont un score inférieur à 10, une dépression légère est côté entre 10 et 18, une dépression modérée entre 19 et 29, une dépression sévère est évalué à un score supérieure à 30. Les scores obtenus sont les suivants : 2,30,20,3,48,57,48,39,20,49,13,12,20,37,10,8,0,3,8,19,23,25,26,28,11 1 2 3 4 Indicateurs numérique Quelle est la population d’étude ? Quel est l’échantillon de travail ? Quel est le caractère étudié ? Comment est-il mesuré ? Quel est le type de ce caractère (qualitatif, quantitatif, nominal, ordinal, discret, continu) ? Construire le tableau des fréquences pour le caractère statut dépressif. Représenter les données sous la forme d’un diagramme des fréquences et d’un diagramme circulaire. Cyril Dalmasso (UEVE) L2 SDV - MSV31 Rappels de statistique descriptive 29 / 175 Indicateurs numérique Les indicateurs numériques n’ont de sens que pour des variables quantitatives Indicateurs de position Mode Moyenne empirique Quantiles empiriques Médiane empirique Indicateurs de dispersion Etendue Intervalle interquartile Variance empirique Cyril Dalmasso (UEVE) L2 SDV - MSV31 Rappels de statistique descriptive Indicateurs de position 30 / 175 Indicateurs numérique Indicateurs de position Mode Pour une variable discrète, le mode est la modalité x i ayant la plus grande fréquence. Pour une variable continue, le mode est le centre de la classe ayant la plus grande fréquence. Remarque Une variable peut avoir plusieurs modes. Cyril Dalmasso (UEVE) L2 SDV - MSV31 31 / 175 Moyenne empirique La moyenne empirique d’un échantillon est la moyenne arithmétique des observations : n 1ÿ x̄ = xi n i=1 Cyril Dalmasso (UEVE) L2 SDV - MSV31 32 / 175 Rappels de statistique descriptive Indicateurs numérique Rappels de statistique descriptive Indicateurs numérique Indicateurs de position Indicateurs de position Quantiles empiriques Soit x1 , ..., xn les observations d’un échantillon et soit x(1) Æ ... Æ x(n) les observations ordonnées. Le quantile empirique d’ordre 1/p (où p est un entier naturel) est la valeur q̃1/p qui partage l’échantillon en p parties de même effectif. Médiane empirique La médiane empirique est le quantile d’ordre 1/2 : Quantiles particuliers Si n est impair : Médiane empirique : quantile d’ordre 1/2 Si n est pair : Déciles : quantile d’ordre i/10 Toute valeur comprise entre x( n2 ) et x( n2 +1) Centiles : quantile d’ordre i/100 Cyril Dalmasso (UEVE) L2 SDV - MSV31 Rappels de statistique descriptive x̃ = x( n+1 ) 2 Quartiles : quantile d’ordre i/4 33 / 175 Indicateurs numérique Cyril Dalmasso (UEVE) L2 SDV - MSV31 Rappels de statistique descriptive Indicateurs de position 34 / 175 Indicateurs numérique Indicateurs de dispersion Etendue L’étendue mesure l’écart entre la plus grande et la plus petite des valeurs observées. Elle est définie par : 200 min 1er quartile mediane moyenne 3eme quartile max en = max (xi ) ≠ min(xi ) 0 100 Frequency 300 400 Exemple −4 −2 0 2 4 6 vtemp Cyril Dalmasso (UEVE) L2 SDV - MSV31 35 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 36 / 175 Rappels de statistique descriptive Indicateurs numérique Rappels de statistique descriptive Indicateurs de dispersion Indicateurs de dispersion Variance empirique La variance empirique d’un échantillon est définie par : Distance interquartile L’intervalle interquartiles est l’intervalle : s2 = [q̃1/4 ; q̃3/4 ] . Il contient la moitié la plus centrale des observations. q Ecart-type L’écart-type est défini par : = q3 ≠ q1 est appelée distance interquartile. Cette quantité est un indicateur de dispersion. L2 SDV - MSV31 Rappels de statistique descriptive 37 / 175 s2 L2 SDV - MSV31 38 / 175 Indicateurs numérique Graphiques 1 ( x 2 ≠ nx 2n ) n ≠ 1 i=1 i ● ● ● ● ● ● ● ● ● 600 1 400 0 −1 −3 200 −2 Ecart-type corrigé L’écart-type corrigé est défini par : sú = ● ● ● 800 Elle possède de meilleures propriétés que la variance empirique (voir chapitre Estimation) ● ● ● Ô Lung 1000 N(0,1) 0 (xi ≠ x n )2 = Retour sur les boîtes à moustaches (boxplot) n ÿ 3 i=1 Ô 2 1 n≠1 Cyril Dalmasso (UEVE) Rappels de statistique descriptive Variance empirique corrigée La variance empirique corrigée est définie par : s ú2 = s= Contrairement à la variance empirique, il est exprimé dans la même unité de mesure que le caractère X . Indicateurs numérique Indicateurs de dispersion n ÿ n n 1ÿ 1ÿ (xi ≠ x n )2 = x 2 ≠ x 2n n i=1 n i=1 i Elle mesure l’écart quadratique moyen de l’échantillon à sa moyenne. La longueur de cet intervalle Cyril Dalmasso (UEVE) Indicateurs numérique s ú2 Contrairement à la variance empirique, il est exprimé dans la même unité de mesure que le caractère X . Cyril Dalmasso (UEVE) L2 SDV - MSV31 39 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 40 / 175 Rappels de statistique descriptive Indicateurs numérique Rappels de statistique descriptive Graphiques Indicateurs numérique Exercice II On considère la série quantitative suivante : 7709 7769 7791 7811 7834 Retour sur les boîtes à moustaches (boxplot) 41 / 175 7746 7772 7796 7817 7841 7749 7777 7800 7821 7845 7750 7780 7801 7823 7850 7757 7781 7802 7825 7855 7762 7783 7804 7826 7860 7765 7788 7804 7829 7873 Quelle est l’étendue de la série ? 2 Regrouper les données en dix classes simples à manipuler. 3 Tracer l’histogramme de la série. En déduire le mode. 5 L2 SDV - MSV31 7732 7772 7795 7812 7839 1 4 Cyril Dalmasso (UEVE) 7710 7771 7792 7812 7839 7767 7790 7805 7832 7889 Tracer la courbe des effectifs cumulés. En déduire graphiquement la valeur de la médiane. Retrouver cette valeur par le calcul. Calculer la moyenne et l’écart-type Cyril Dalmasso (UEVE) Rappels de probabilités L2 SDV - MSV31 42 / 175 Rappels de probabilités Expérience aléatoire, espace fondamental 1 Introduction 2 Rappels de statistique descriptive 3 Rappels de probabilités 4 Estimation 5 Tests d’hypothèses Cyril Dalmasso (UEVE) Définitions Une expérience aléatoire est une expérience dont l’issue ne peut être prédite avec certitude. On appelle espace fondamental (ou univers) l’ensemble de toutes les issues possibles. On le note ⌦. L2 SDV - MSV31 43 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 44 / 175 Rappels de probabilités Rappels de probabilités Evénements Relations entre ensembles et événements Définitions Un événement A est un sous-ensemble de l’espace fondamental (c’est à dire : A µ P(⌦)). Un événement élémentaire est l’un des résultats observables à l’issue de l’expérience aléatoire. Un événement composé est un événement dont la réalisation peut se produire à partir de plusieurs événements élémentaires. Notation ⌦ ? A (ou Ac ) Signification/Ensemble AflB AfiB A\B intersection entre A et B réunion de A et B A moins B (A privé de B) A et B disjoints AflB =? AµB Cyril Dalmasso (UEVE) L2 SDV - MSV31 45 / 175 ensemble vide complémentaire de A dans ⌦ A inclu dans B Cyril Dalmasso (UEVE) Rappels de probabilités A et B sont deux événements incompatibles A implique B (si A est réalisé, alors B l’est aussi) L2 SDV - MSV31 46 / 175 Rappels de probabilités Probabilité Probabilité Définition axiomatique (Kolmogorov-1933) Propriétés élémentaires Une probabilité est une application P : ⌦ æ [0, 1] telle que : i) P(A) = 1 ≠ P(A) pour tout A œ ⌦, on a P(A) Ø 0, ii) P(?) = 0 P(⌦) = 1, iii) A µ B ∆ P(A) Æ P(B) Si A fl B = ÿ, alors P(A fi B) = P(A) + P(B). iv) 0 Æ P(A) Æ 1 v) P(A fi B) = P(A) + P(B) ≠ P(A fl B) Remarque Une probabilité est une mesure. Remarque P(A) = 0 ne signifie pas que A est un événement impossible. Définition On appele espace probabilisé le triplet (⌦, P(⌦), P) Cyril Dalmasso (UEVE) Interprétation/Evénement événement certain événement impossible événement contraire de A (A est réalisé si et seulement si A ne l’est pas) A et B sont tous les deux réalisés A est réalisé ou B est réalisé A est réalisé mais B ne l’est pas L2 SDV - MSV31 47 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 48 / 175 Rappels de probabilités Rappels de probabilités Probabilité conditionnelle Formule des probabilités totales Définition Soit E un ensemble. B1 , B2 , ..., Bn constituent une partition de E si : Définition Soit A et B deux événements tels que P(B) ”= 0. La probabilité conditionnelle de A par rapport à B, notée P(A|B) ou PB (A) (probabilité de A sachant B), est donnée par : P(A|B) = P(A fl B) P(B) ’i œ {1, ..., n}; Bi ”= ÿ ’i ”= j; Bi fl Bj = ÿ B1 fi B2 fi ... fi Bn = E Formule des probabilités totales Si les événements B1 , B2 , ..., Bn forment une partition de ⌦ P(A) = P(B1 )P(A|B1 ) + P(B2 )P(A|B2 ) + ... + P(Bn )P(A|Bn ) = n ÿ i=1 Cyril Dalmasso (UEVE) L2 SDV - MSV31 49 / 175 Cyril Dalmasso (UEVE) Rappels de probabilités L2 SDV - MSV31 50 / 175 Rappels de probabilités Formule de Bayes Exercice III Formule de Bayes On considère un tissu de cellules parmi lesquelles un certain nombre sont infectées par un virus. Après traitement d’une partie des cellules, on remarque que sur les 70% de cellules non traitées, 20% sont atteintes du virus alors que sur les 30% de cellules traitées, 10% sont encore atteintes du virus. On prélève au hasard une cellule (et on admet que chaque cellule a la même probabilité d’être prélevée). Si P(A) ”= 0 et P(B) ”= 0 alors P(A|B) = P(A)P(B|A) P(B) Si les événements A1 , A2 , ..., An forment une partition de ⌦ alors P(Ai )P(B|Ai ) P(Ai |B) = qn i=1 P(Ai )P(B|Ai ) Cyril Dalmasso (UEVE) P(Bi )P(A|Bi ) L2 SDV - MSV31 51 / 175 1 Quelle est la probabilité que cette cellule soit infectée ? 2 Sachant la cellule infectée, quelle est la probabilité qu’elle soit traitée ? Cyril Dalmasso (UEVE) L2 SDV - MSV31 52 / 175 Rappels de probabilités Rappels de probabilités Indépendance Variables aléatoires réelles Définition Deux événements A et B sont dits indépendants si et seulement si Définitions Une variable aléatoire réelle X est une application qui à tout élément Ê de ⌦ associe un nombre réel x X P(A fl B) = P(A)P(B) Ê ‘æ x On note A ‹ ‹B Remarques Si A et B sont indépendants, alors P(A|B) = P(A) … P(B|A) = P(B) Attention à ne pas confondre indépendance et incompatibilité. Cyril Dalmasso (UEVE) L2 SDV - MSV31 : ⌦æR On appelle domaine de variation (ou support) de X l’ensemble Dx ™ R des valeurs que peut prendre la variable aléatoire X . Remarques On note généralement X la variable aléatoire et x sa réalisation (c’est à dire x = X (Êi ) où Êi œ ⌦). 53 / 175 Cyril Dalmasso (UEVE) Rappels de probabilités L2 SDV - MSV31 54 / 175 Rappels de probabilités Variables aléatoires réelles Loi de probabilité Définitions Soit X une variable aléatoire discrète telle que ⌦X = x1 , ..., xN . La loi de probabilité de X est définie/caractérisée par sa fonction de probabilité qui donne, pour tout i œ 1, ..., N Définition Une variable aléatoire discrète est une variable aléatoire dont le domaine de variation contient un nombre fini ou une infinité dénombrable de valeurs. pi = P(X = xi ) Soit X une variable aléatoire continue. On appelle densité de probabilité la fonction f (x ) définie par : Une variable aléatoire continue est une variable aléatoire dont le domaine de variation contient une infinité non dénombrable de valeurs. f (x ) = lim”æ0 P(X œ [x ; x + ”]) ” Remarque : Pour ” proche de 0, f (x )dx ¥ P(X œ [x ; x + ”]) Cyril Dalmasso (UEVE) L2 SDV - MSV31 55 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 56 / 175 Rappels de probabilités Rappels de probabilités Propriétés Propriétés Cas discret Cas continu pi = P(X = xi ) Ø 0 ’xi œ ⌦ f (x ) Ø 0 ’x œ R N ÿ i=1 ⁄ +Œ pi = 1 ’A µ ⌦ : P(A) = ÿ i:xi œA Cyril Dalmasso (UEVE) ≠Œ Remarque f (x ) Ø 0’x œ R f (x )dx = 1 ⁄ +Œ ≠Œ Toute fonction vérifiant ces deux propriétés est une densité de probabilité. ’[a, b] µ R : pi P(X œ [a, b]) = ⁄ b a f (x )dx = 1 f (x )dx L2 SDV - MSV31 57 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 Rappels de probabilités 58 / 175 Rappels de probabilités Fonction de répartition Fonction de répartition Définition On appelle fonction de répartition la fonction F définie par : Liens entre fonction de répartition et fonction de probabilité ou densité Cas discret :ÿ F F (x ) = : DX ≠æ [0, 1] xi Æx xi ‘≠æ P(X Æ xi ) P(xi ) = F (xi ) ≠ F (xi≠1 ) Cas continu ⁄: Propriétés F (x ) = i) F (x ) œ [0, 1] iv) v) ≠Œ x æ≠Œ lim F (x ) = 1 ⁄ b a f (x )dx Remarque x æ+Œ Pour une variable aléatoire discrète, F est une fonction en escaliers Pour une variable aléatoire continue, F est une fonction continue L2 SDV - MSV31 f (t)dt … f (x ) = F Õ (x ) P(X œ [a, b]) = F (b) ≠ F (a) = lim F (x ) = 0 Cyril Dalmasso (UEVE) x Pour tout intervalle [a, b] µ R : ii) F est une fonction croissante iii) P(xi ) Il est équivalent de spécifier f (x ) ou F (x ) 59 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 60 / 175 Rappels de probabilités Rappels de probabilités Espérance Espérance Définition L’espérance E (X ) d’une variable aléatoire X est définie par : E (X ) = E (X ) = N ÿ i=1 xi pi ⁄ +Œ ≠Œ Propriété Soit h une fonction telle que h(x ) est définie. (cas discret) xf (x )dx E (h(X )) = (cas continu) E (h(X )) = Remarques L’espérance ne fait pas nécessairement partie de Dx N ÿ h(xi )pi i=1 ⁄ +Œ ≠Œ (cas discret) h(x )f (x )dx (cas continu) L’espérance n’est pas toujours définie Cyril Dalmasso (UEVE) L2 SDV - MSV31 61 / 175 Cyril Dalmasso (UEVE) Rappels de probabilités L2 SDV - MSV31 62 / 175 Rappels de probabilités Espérance Variance et écart-type Propriétés (linéarité de l’espérance) Définitions La variance Var (X ) d’une variable aléatoire X est définie par : E (aX + b) = aE (X ) + b Ë Var (X ) = E (X ≠ E (X ))2 E (X + Y ) = E (X ) + E (Y ) L’écart-type est défini par Attention : E (XY ) ”= E (X )E (Y ) ‡= Cyril Dalmasso (UEVE) L2 SDV - MSV31 63 / 175 Cyril Dalmasso (UEVE) Ò È Var (X ) L2 SDV - MSV31 64 / 175 Rappels de probabilités Rappels de probabilités Variance et écart-type Covariance Théorème (de König-Huygens) Définition Pour un couple de variables aléatoires (X , Y ), la covariance est définie par : Pour toute variable aléatoire réelle X , on a : Var (X ) = E (X 2 ) ≠ E (X )2 Cov (X , Y ) = E ((X ≠ E (X ))(Y ≠ E (Y ))) Propriétés Comme l’espérance, la variance n’existe pas toujours = E (XY ) ≠ E (X )E (Y ) Remarques Var (X ) Ø 0 X‹ ‹ Y ∆ Cov (X , Y ) = 0 mais Cov (X , Y ) = 0 ; X ‹ ‹Y Var (aX + b) = a2 Var (X ) Var (X ) = Cov (X , X ) Var (X + Y ) = Var (X ) + Var (Y ) + 2Cov (X , Y ) Cyril Dalmasso (UEVE) L2 SDV - MSV31 65 / 175 Cyril Dalmasso (UEVE) Rappels de probabilités L2 SDV - MSV31 Rappels de probabilités Coéfficient de corrélation Médiane Définition Pour un couple de variables aléatoires (X , Y ), le coéfficient de corrélation est défini par : Définition La médiane d’une variable aléatoire est une mesure de la centralité de cette variable. Il s’agit de la valeur m telle que : Propriété Cor (X , Y ) = flX ,Y = Cov (X , Y ) Var (X )Var (Y ) P(X Æ m) = 1/2 Remarque Dans le cas discret, la médiane ne peut être identifiée que si l’une des valeurs de la fonction F (x ) est égale à 1/2. flX ,Y œ [≠1; 1] Cyril Dalmasso (UEVE) 66 / 175 L2 SDV - MSV31 67 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 68 / 175 Rappels de probabilités Rappels de probabilités Quantiles Quantiles Définition Le p-quantile (parfois appelé p-fractile) d’une variable aléatoire X est la valeur qp telle que : P(X Æ qp ) = p; p œ [0, 1] … qp = F Cyril Dalmasso (UEVE) ≠1 (p) L2 SDV - MSV31 69 / 175 Quantiles particuliers La médiane (définie précédemment) n’est rien d’autre que le 0,5 quantile q0.5 coupant DX en deux intervalles tels que la probabilité d’être dans chacun d’eux vaut 1/2. Les quartiles q0.25 , q0.5 , q0.75 coupent DX en quatre intervalles tels que la probabilité d’être dans chacun d’eux vaut 1/4. Les valeurs q0.25 , q0.5 et q0.75 sont appelées premier quartile, deuxième quartile (ou médiane) et troisième quartile (respectivement). Cyril Dalmasso (UEVE) Rappels de probabilités L2 SDV - MSV31 Rappels de probabilités Quantiles Distributions usuelles Quantiles particuliers Les déciles q0.1 , q0.2 , ..., q0.9 coupent DX en dix intervalles tels que la probabilité d’être dans chacun d’eux vaut 1/10. Les valeurs q0.1 , q0.2 , ..., q0.9 sont appelées premier décile, deuxième décile, ..., neuvième décile (respectivement). Lois discrètes Les centiles q0.01 , q0.02 , ..., q0.99 coupent DX en cent intervalles tels que la probabilité d’être dans chacun d’eux vaut 1/100. Les valeurs q0.01 , q0.02 , ..., q0.99 sont appelées premier centile, deuxième centile, ..., quatre-vingt-dix-neuvième centile (respectivement). Cyril Dalmasso (UEVE) L2 SDV - MSV31 70 / 175 71 / 175 Lois de probabilité discrètes Uniforme X ≥ U({1, 2, ..., n}) nœN Bernoulli X ≥ B(p) 0ÆpÆ1 Binomiale X ≥ B(n, p) n entier > 0, 0 Æ p Æ 1 Poisson X ≥ P(⁄) ⁄>0 Géométrique X ≥ G(p) 0ÆpÆ1 Binomiale négative X ≥ BN(n, p) 0ÆpÆ1 Cyril Dalmasso (UEVE) Fct de probabilité E (X ) 1 n n+1 2 p x (1 ≠ p)1≠x si x = 0, 1 Cnx p x (1 ≠ p)n≠x si x=0,1,...,n Var (X ) n2 ≠1 12 p p(1 ≠ p) np e ≠⁄ ⁄x x! np(1 ≠ p) ⁄ ⁄ p(1 ≠ p)x ≠1 si x = 1, 2, ... 1 p 1≠p p2 Cxn≠1 p n (1 ≠ p)x ≠n ≠1 si x = n, n + 1, ... n p n(1≠p) p si x = 0, 1, 2, ... L2 SDV - MSV31 Genèse Lancer d’une pèce de monnaie avec P(pile) = p Loi de la somme de n v.a. indépendantes de loi B(p) Limite de la loi binomiale lorsque n æ Œ, npn æ ⁄ > 0 et pn æ 0 Nombre de lancers nécessaire pour l’obtention du premier pile avec P(pile) = p Loi de la somme de n v.a. indépendantes de loi G(p) 72 / 175 Rappels de probabilités Rappels de probabilités Distributions usuelles Loi normale Lois continues Lois de probabilité continues Uniforme X ≥ U[a, b] a<b Exponentielle X ≥ Exp(⁄) ⁄>0 Fct de densité ⁄e ≠⁄x 1R+ (x ) Normale X ≥ N(µ, ‡ 2 ) 2 Ô 1 2fi‡ 2 + µ œ R, ‡ œ R Khi-deux X ≥ ‰2‹ ‹ >0 Fct de répartition (x ≠µ)2 ≠1 e 2 ‡2 Ô ‹ >0 Cauchy X ≥ C (µ, ‡) 1 ⁄ - µ ‡2 - ‹ 2‹ 0 ‹ ‹≠2 si ‹ Ø 2 n’existe pas si ‹ Ø 3 n’existe pas – — – —2 ( n+1 ) 2 2 n+1 nfi ( n )(1+ x ) 2 2 n - — – –≠1 ≠x — x e (–) Gamma X ≥ (–, —) – > 0, — > 0 - si x Ø 0 Cyril Dalmasso (UEVE) a+b 2 + 1[b,+Œ[ (x ) - ‡ fi[(x ≠µ)2 +‡ 2 ] µ œ R, ‡ 2 œ R+ Var (X ) (1 ≠ e ≠⁄x )1R+ (x ) 1 x (n≠2)/2 e ≠x /2 2n/2 (n/2) Student X ≥ ‰2‹ E (X ) (b≠a)2 12 1 ⁄2 x ≠a 1 (x ) b≠a [a,b] 1 1 (x ) b≠a [a,b] L2 SDV - MSV31 73 / 175 Définition Une variable aléatoire X suit une loi normale (ou loi de Gauss-Laplace) de paramètres µ et ‡ 2 si sa densité f est définie par : f (x ) = Ô 1 2fi‡ 2 2 1 (x ≠µ) ‡2 e≠ 2 Notation X ≥ N(µ, ‡ 2 ) Cyril Dalmasso (UEVE) L2 SDV - MSV31 Rappels de probabilités 74 / 175 Rappels de probabilités Loi normale Loi normale Représentation graphique Fonction de répartition mu=0 // sigma^2=0.2 mu=0 // sigma^2=1 mu=0 // sigma^2=5 mu=−2 // sigma^2=0.5 0.6 0.8 ⁄ x 1 2 1 (x ≠µ) ‡2 dx 2fi‡ 2 Il n’existe pas de forme analytique de la fonction de répartition F . 1.0 F (x ) = ≠Œ Ô e≠ 2 0.4 f(x) Espérance et variance 0.2 E (X ) = µ 0.0 Var (X ) = ‡ 2 −4 −2 0 2 4 x Cyril Dalmasso (UEVE) L2 SDV - MSV31 75 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 76 / 175 Rappels de probabilités Rappels de probabilités Loi normale Loi normale centrée réduite Stabilité par combinaisons linéaires Définition On appelle loi normale centrée réduite la loi N(0, 1). Si X est une variable aléatoire telle que X ≥ N(µ, ‡ 2 ), alors : Propriété aX + b ≥ N(aµ + b, a2 ‡ 2 ) X ≠µ Si X ≥ N(µ, ‡ 2 ), alors Y = Ô ≥ N(0, 1) ‡2 Si X et Y sont deux variables aléatoires indépendantes telles que X ≥ N(µ1 , ‡12 ) et Y ≥ N(µ2 , ‡22 ), alors : Notations Par convention, on note „ la densité d’une N(0, 1) et répartition. X + Y ≥ N(µ1 + µ2 , ‡12 + ‡22 ) Cyril Dalmasso (UEVE) L2 SDV - MSV31 77 / 175 Cyril Dalmasso (UEVE) Rappels de probabilités sa fonction de L2 SDV - MSV31 78 / 175 Rappels de probabilités Loi normale centrée réduite Théorème de la limite centrale 0.4 0.5 Théorème Soit X1 , ..., Xn n variables aléatoires indépendantes et identiquement distribuées d’espérance µ et de variance ‡ 2 : f(x) 0.3 Y = 0.1 0.2 …Y = n ÿ i=1 1 n 1 Xi ≠æN nµ, n‡ 2 L qn i=1 Xi Ò ‡2 n ≠µ 2 ≠æN(0, 1) L 0.0 Remarque −4 −2 0 2 Ce théorème est appelé théorème de la limite centrale (TLC) ou théorème de la limite centrée (TLC) ou théorème central limite (TCL) 4 x Cyril Dalmasso (UEVE) L2 SDV - MSV31 79 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 80 / 175 Rappels de probabilités Rappels de probabilités Théorème de la limite centrale Théorème de la limite centrale Illustration Approximations de lois 1.5 X ≥ B(n, p) X ≥ P(µ) =∆ n Ø 30 ; p Æ 0.1 »µ Ø 20 1.0 µ = np X ≥ B(n, p) Density n = 100 N(µ, ‡ 2 ) =∆ n Ø 30 ; np Ø 5 ; n(1 ≠ p) Ø 5 « µ = np ; ‡ 2 = np(1 ≠ p) 0.5 ‡2 = µ n Ø 30 X = Y1 + ... + Yn 0.0 avec Y1 , ..., Yn iid −4 −2 0 2 4 moysd Cyril Dalmasso (UEVE) L2 SDV - MSV31 81 / 175 Cyril Dalmasso (UEVE) Rappels de probabilités Satellites de la loi normale - Loi du ‰2 1 x (n≠2)/2 e ≠x /2 2n/2 (n/2) k=1 k=2 k=3 k=4 k=5 0.6 0.8 Xi2 ≥ ‰2n f(x) i=1 f (y ) = 0.2 0.4 . Densité 1.0 Définition Soient X1 , ..., Xn n variables aléatoires indépendantes et identiquement distribuées de loi normale centrée réduite. La variable aléatoire Y = X12 + ... + Xn2 suit une loi continue appelée loi du ‰2 à n degrés de liberté : n ÿ 82 / 175 Rappels de probabilités Satellites de la loi normale - Loi du ‰2 Y = L2 SDV - MSV31 0.0 Propriétés Si Y1 ≥ ‰2n1 et Y2 ≥ ‰2n2 avec Y1 ‹ ‹ Y2 , alors Y = Y1 + Y2 ≥ ‰2n1 +n2 0 2 4 6 8 x Si Y ≥ ‰2n , alors E (Y ) = n et Var (Y ) = 2n Cyril Dalmasso (UEVE) L2 SDV - MSV31 83 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 84 / 175 Rappels de probabilités Rappels de probabilités Satellites de la loi normale - Loi de Student Satellites de la loi normale - Loi de Student Définition Soient X et Y deux variables aléatoires indépendantes telles que X ≥ N(0, 1) et Y ≥ ‰2n . La variable aléatoire T = X / Y /n suit une loi continue appelée loi de Student à n degrés de liberté : Densité Var (T ) = 0.5 x 2 n+1 2 n ) 0.3 0.4 k=1 k=2 k=5 k=10 k=1e+05 0.1 n n≠2 0.0 E (T ) = 0 nfi ( n2 )(1 + 0.2 Propriétés X ≥ tn Y /n ( n+1 2 ) f(x) T = f (t) = Ô si n > 2 Cyril Dalmasso (UEVE) −4 −2 0 2 4 x L2 SDV - MSV31 85 / 175 Cyril Dalmasso (UEVE) Rappels de probabilités L2 SDV - MSV31 86 / 175 Rappels de probabilités Satellites de la loi normale - Loi de Fisher-Snedecor Satellites de la loi normale - Loi de Fisher-Snedecor Définition Soient Y1 et Y2 deux variables aléatoires indépendantes telles que Y1 ≥ ‰2n1 et Y2 ≥ ‰2n2 . La variable aléatoire Z = (Y1 /n1 )/(Y2 /n2 ) suit une loi continue appelée loi de Fisher à n1 et n2 degrés de liberté : Densité 2 d2=1 d2=1 d2=2 // d2=1 // d2=100 0.5 1.0 1.5 d1=1 // d1=2 // d1=5 // d1=100 d1=100 0.0 Z1 ≥ F (n2 ; n1 ) ∆ Z2 = 1/Z1 ≥ F(n1 ; n2 ) T ≥ tn ∆ Z = T 2 ≥ F(1; n) L2 SDV - MSV31 2 x n1 /2≠1 (n2 + n1 x ) 2.0 Y1 /n1 ≥ F(n1 ; n2 ) Y2 /n2 Remarques Cyril Dalmasso (UEVE) ! n1 " 2 ! n2 " n1n1 /2 n2n2 /2 f (x ) = f(x) Z= ! n1 +n2 " 0 1 2 3 4 5 x 87 / 175 Cyril Dalmasso (UEVE) L2 SDV - MSV31 88 / 175