Résumé: Statistique: Tirer des conclusions sur des données sur base d’un échantillon => Inférer à la population. Statistique descriptive : Méthodes de présentation des données de l’échantillon (graphiques ou par calcul) Inférence statistique : Tirer des conclusions sur la population à partir de l’échantillon pour ce faire on va utiliser un outil d’aide que sont les probabilités. Echantillon :Contient des valeurs observées (empiriques), il s’agit d’un sous ensemble de la population que l’on peut mesurer. L’échantillon devra être représentatif de ma population (chaque élément de l’échantillon devra avoir la même probabilité que n’importe quel autre de la population d’être tiré => tirage ALEATOIRE) L’échantillon contient la liste des données observées{y1,y2,y3, …, yn} A partir de cette liste on peut définir la distribution empirique des fréquences relatives des valeurs observées. On peut observer cette liste via des moyens graphiques : Tableaux- graphiques, diagrammes, .. Ou via des valeurs numériques (autre façon de résumer une distribution empirique de fréquence) ( yi Y ) 2 1 2 Au moyen de paramètres de dispersion s y yi2 Y 2 , localisation n n 1 (où se trouve le gros de la distribution Y y i ), indicateur de symétrie. n Population :quand on passe au niveau de la population il y a plein de choses inobservables, car la population est en général trop grande. Comme on ne sait pas trop ce qui se passe en détail, on va définir un modèle. Pour construire le modèle on va utiliser l’échantillon. Le modèle nous permettra de tirer des conclusions sur la population. Ce qui nous amène à la distribution théorique de probabilités : il s’agit d’un modèle théorique qui me dit avec quelle fréquence, chacune de mes observations va apparaître. Ce modèle théorique décrit ce que l’on devrait observer (pas ce que l’on observe, ou ce que l’on a observé) Il faut toujours décrire le modèle dont on parle, pour pouvoir se comprendre. Pour spécifier le modèle, il faut d’abord décrire l’espace d’échantillonnage , il s’agit de l’ensemble des valeurs que peut prendre la variable aléatoire, ainsi que les probabilités pi associées à ces valeurs. On dit aussi que les valeurs que peut prendre la variable sont les évènements simples (à vérifier ???) Il existe différent type de variables aléatoires et différents types de distribution de probabilité associées. Les variables aléatoires discrètes : L’espace d’échantillonnage est composé de valeurs énumérables On peut donc pour chaque valeur définir la probabilité ={x0,x1,x2, … p={p0,p1,p2,… L’idée est donc de trouver une formule mathématique qui va associer la probabilité pi à xi. n! Ex : Distribution binomiale : P( X x) p x (1 p) n x (n x)! x! Distribution de Poisson : P( X x) e u u x x! Les variables aléatoires continues : L’espace d’échantillonnage est un intervalle dans R. Comme cet intervalle est indénombrable, il est impossible de spécifier toutes les probabilités de ces valeurs, c’est pourquoi on utilise le concept de densité de probabilité. On généralise le discret au continu. Il existe différentes distribution continue : La normale, la t Student, la khi carré. On utilise de valeurs numérique pour résumer ces distributions, ces valeurs ne se basent plus sur des observations mais sur le modèle théorique. Ex : Moyenne au niveau de la population (localisation) : u x E (X ) Variance au niveau de la population (dispersion): x2 E (( xi u x ) 2 ) x2 E ( x 2 ) u x2 E(X) est l’espérance : càd une valeur que l’on s’attend à observer. Pour une variable discrète n u x E ( X ) xi pi équivallent à la moyenne de l’échantillon. i 1 n x2 ( xi u x ) 2 pi i 1 Semblable à sx mais sx s’applique à l’échantillon pas à la population. Pour une variable continue : u x x ( x)dx ( x u x ) 2 ( x)dx 2 x Il faut toujours vérifier que le modèle théorique choisi soit cohérent par rapport à l’échantillon. Si ça ne colle pas avec les données observées dans l’échantillon alors il faut changer de modèle. Distribution continue On part de la distribution binomiale, et on fait tendre n vers l’infini, toutefois on considère que p n’est pas nul. Il est évident que si n tends vers l’infini la probabilité d’avoir un nombre de valeur xi est nulle, toutefois obtenir un nombre compris entre xi et xi+ quelque chose n’est pas tout à fait nulle. Toutefois si n tends vers l’infini : n E ( X ) lim n xi pi i 1 n s x lim n ( xi X ) 2 pi i 1 Graphiquement cela n’a pas beaucoup de sens, on va donc tenter de recentrer cette distribution sur sa moyenne et tenter de réduire son écart type à 1. Pour ce faire on procède à un changement de variable : X E( X ) Z sx Rappel : E (a bX ) a bE ( X ) Var (a bX ) b 2Var ( X ) b 2 s x En remplaçant, a par -E(X)/sx et b par 1/sx Je peux calculer : E( X ) X E( X ) E( X ) E (Z ) E ( ) 0 sx sx sx sx 2 1 1 Var ( X ) 2 s x2 1 2 sx sx Ce changement de variable produit donc une distribution centrée en 0 et d’écart type égal à 1. Nettement plus lisible graphiquement. Les valeurs de X étant des valeurs entières, cela implique que X 1 X 1 0 En différenciant Z, je trouve que Z sx sx Or si n tends vers l’infini et bien sx tends vers l’infini aussi, cela signifie que Z 0 . La variable aléatoire Z n’est plus une variable aléatoire discrète comme X mais devient une variable aléatoire continue. Si on s’intéresse à la distribution binomiale de X, parler de P(X=x), si n tends vers l’infini n’a pas de sens, cette probabilité est nulle, par contre parler de P( X x, x X ) n’est pas nul et peut à nouveau avoir du sens, toutefois on n’est plus dans une probabilité, mais dans une répartition de probabilité ou une densité de probabilité. Si l’on fait cette analogie avec Z variable continue, on va parler de (z ) . Tentons de déterminer le P( X ) afin de voir comment va évoluer le (z ) P( X ) P( X X ) P( X ) P( X 1) P( X ) On sait que X ~ Bin(n,p) Var ( Z ) P( X 1) C nx 1 p x 1 (1 p ) n x 1 P( X ) C nx p x (1 p ) n x n! p x 1 q n ( x 1) (n x)! x! p x 1 q n ( x 1) (n x 1))! ( x 1)! n! (n x 1))! ( x 1)! p x q n x (n x)!( x)! p x q n x (n x)( n x 1)...1.x( x 1)( x 2)...1 p x 1 q n ( x 1) (n x) p x 1 q n ( x 1) (n x 1))( n x 2)...1.( x 1)( x)( x 1)...1 p x q n x ( x 1) p x q n x P( X 1) (n x) p P( X ) q ( x 1) (n x) p P( X 1) P( X ) q ( x 1) Astuce : je soustrais P(X) de chaque côté pour obtenir : P( X ) (n x) p P( X 1) P( X ) P( X ) P( X ) q( x 1) np xp qx q np x( p q) q np x q P( X ) P( X ) P( X ) q( x 1) q( x 1) q( x 1) Dans la définition des variables aléatoires nous avions vu n que : P( X )X ( z )dz 1 i 1 De plus X 1 1 sx Je vais donc pouvoir remplacer par analogie mon ( z) P( X )X par ( z )z sx Or, X 1 Or nous avons vu que Z P( X ) ( z) sx et P( X ) ( z ) sx XX sx Or nous sommes dans une distribution binomiale qui a pour paramètres : Rappelons que Z X np s x2 npq (q 1 p) Ecrivons donc l’équivalence entre la répartition binomiale et la densité de probabilité trouvée pour z : np X q P( X ) P( X ) qx q 1 1 np X q ( z ) ( z ) sx s x qX q Tâchons de remplacer X par Z X zs x ( X ) ( zs x np) On remplace dans l’équation et nous obtenons np zs x np q zs x q ( z ) ( z ) 2 qzs x npq q s x qzs x q 1 On divise les deux membres par z ce qui ne change rien à l’égalité : sx zs x2 qs x ( z ) ( z ) zs x q ( z ) z z s xé qzs x q s xé qzs x q Si n tends vers l’infini => z 0 et sx tend vers l’infini Je calcule cette limite q z 2 s ( z ) d ( z ) sx ( z ).( z ) lim n ( z ) x2 qz q z dz sx 1 2 sx sx sJe résous l’équation différentielle : d ( z ) ( z )( z ) dz d ( z ) z.dz ( z) ln( ( z )) z2 k 2 z2 k 2 z2 2 z2 2 ( z) e e e Ce Il nous reste à déterminer C, la constante, comme cette fonction est une fonction de densité de probabilité, je peux écrire l’égalité suivante : C e z2 2 k dz 1 Cette intégrale est appelée l’intégrale de Poisson, et le calcul intégrale nous apprend que sa valeur vaut : e z2 2 dz 2 . Il est possible de le démontrer en passant à l’intégrale double et en effectuant un changement de variable… Mais là n’est pas le but, on est en calcul de probabilités pas en calcul différentiel et intégral… 1 Cela nous permet de définir C comme étant : et de pouvoir écrire la distribution de 2 probabilité associée : 1 2 e z2 2 dz 1 , que l’on appelle aussi la distribution normale réduite. La loi normale (Gauss) Definition de et (x ) Nous dirons qu’une variable aléatoire suit une loi normale ( X ~ N( u x , x2 ) ) si , ( x) 1 1 x u x 2 ( ) 2 e 2 2 Dans certains logiciels on utilise plutôt pour définir la distribution (ex :R) Minitab permet aussi de générer des valeurs provenant d’une loi normale. Représentation graphique : (x ) N (u x , x2 ) u x La courbe est symétrique => moyenne= médiane = mode Ex : si dans l’échantillon on obtient une distribution asymétrique (en observant les paramètres) on sait déjà que l’on ne peut pas appliquer une loi normale. Beaucoup de gens ont tendance à croire que les variables aléatoires suivent d’office des lois normales, ceci s’avère souvent faux. La courbe es totalement spécifiée si on connait : (u x , x2 ) Quand la moyenne augmente, la courbe se décale vers la droite (cfr courbe en rouge) Au contraire quand la moyenne diminue la courbe se déplace vers la gauche (cfr courbe en bleu) Il s’agit toujours de la même courbe mais décalée. Si x2 augmente, la courbe à tendance à s’étaler davantage toutefois, elle va se tasser (le mode (ou le sommet) sera plus bas). On peut voir cela sur la courbe en vert foncé. Au contraire, si x2 diminue la courbe sera moins étalée mais son sommet sera plus haut. (Cfr la courbe en vert clair). Tout ceci pour une raison simple, la surface sous la courbe vaut toujours 1. Dans le cas d’une distribution normale on trouve 95% des données dans l’intervalle : [u-1.96,u+1.96] Lorsque l’on veut analyser un échantillon de donnée, on fait d’abord son histogramme et on tente ensuite de l’approximer par une gaussienne. Si on voit que ça colle plus ou moins on déduit que l’on peut utiliser une gaussienne, il s’agit là d’un contrôle visuel, donc d’une méthode très subjective. Il faut aussi déterminer suffisamment d’observations pour déterminer cette normalité. La distribution normale standardisée (réduite) Il s’agit d’une distribution dont la moyenne vaut 0 et l’écart type vaut 1. Partons de la normale générale : X~N (u x , x2 ) On pose X * X ux x ce nouvel X étoile est appelé variable standardisée En remplaçant X par cette variable normalisée, cela ramène toujours à déterminer une valeur pour la même distribution, cette distribution peut donc être tabulée. On parle aussi de Z qui représente en fait la répartition de la distribution 1 z 1 z 2t2 * F ( Z X ) (t )dt e dt 2 Cette répartition est donnée dans des tables : Exemple : X : pH du sang des souris X~N(7.5 ;(0.055)^2) Quelle est P(X>7.6) ? On peut le faire sur ordinateur, mais on peut aussi utiliser la table : On va normaliser X : X*=(7.6-7.5)/0.055=1.82 P(Z>1.82)=1-P(Z<=1.82) (on utilise cet artifice car la répartition donnée par la table donne toujours des valeurs plus petite, mais comme l’aire sous la courbe vaut toujours on peut déduire facilement la valeurs >) On recherche dans la table la valeur de pour 1.8 et 0.02 et on trouve P(Z<=1.82)=0.9656 P(X>7.6)=1-P(Z<=1.82)=1-0.9656 En général on aime bien la distribution normale : Approximation d’une loi de Poisson Dans certains cas on peut approximer la loi de Poisson par une loi Normale X~POIS(u) Avec : u u x x2 Si u augmente, la loi de Poisson très asymétrique va progressivement devenir symétrique. Si u tend vers l’infini on va considérer que la loi de Poisson suit une loi Normale de type N(u,u) En pratique si u=5 on considère que l’on peut déjà utiliser l’approximation. Imaginons : X~POIS(u=6) Quel est la proba que X<=7 P(X<=7)=P(X=0)+P(X=1)+P(X=2)+…+¨P(X=7) Fastidieux On peut aussi aller voir dans la table de Poisson (si on en a une à disposition), cela va nous donner : P(X<=7)=0.7440 Ou on approxime par une loi normale : X~POIS(6)=>X~N(6,6) P(X<=7)=P(X*<=(7-6)/sqrt(6)) Pr(X*<=0.41)=0.6591 Par rapport à 07440 ce n’est pas tout à fait génial Si on refait la même expérience avec une loi de Poisson de u=10. Si X~POIS(10) Par la table de Poisson P(X<=7)=0.2202 (u est le taux moyen avec lequel arrive les évènements) On utilise l’approximation normale : X~N(10,10) P(X<=7)=>P(X*<=(7-10)/sqrt(10))=>P(X*<=-0.95) La table de Z ne donne que les valeurs positives: On va toutefois utiliser la symétrie de la loi Normale : -0.95 0.95 P(X*<=-0.95)=P(X*>0.95) (partie hachurée en rouge) => P(X*>0.95)=1-P(X*<=0.95) P(X*<=0.95)=0.8289 => 1-P(X*<=0.95)=0.1711 Ceci dit avec Poisson on avait 0.2202, ce qui n’est pas non plus la même chose. En pratique on utilise cette approximation quand u>=30, si il est en dessous, l’approximation ne fonctionne pas bien. Approximation de la loi Binomiale Si X~BIN(n,p) n représente le nombre de fois que l’on répète une expérience qui peut avoir comme résultat : success ou failure. p est la probabilité du succes. Moyenne vaut :np Variance vaut : npq =np(1-p) Si n grandit on peut approximer la Binomiale par une loi Normale de type X~N(np,(np(1-p)) Exercie dans les notes : Technique pour rechercher la normalité QQPlot <-> Droite de Henry Il s’agit d’un graphique en abscisse on place les observations (ex : pH sanguin) En ordonnée on place la valeur que l’on aurait du observer si la loi était normale (valeur attendue), si les valeurs de l’échantillon dévient de la droite, c’est que la distribution n’est pas normale. Souvent ça colle bien avec les valeurs situées au centre de la droite, mais ça dévie en bout. Variations au niveau des queues de la distribution. Il existe des tests d’hypothèse qui peuvent vérifier cette normalité par rapport à la droite de Henry Si l’échantillon est représentatif de la population et que la droite de Henry donne une bonne normalité, on peut dire que la loi normale est un bon modèle pour représenter la population. Distribution Log Normale En bio statistique on se retrouve souvent avec des distributions décalées vers la droite. Ex : si l’on mesure le temps que vont mettre des rats pour sortir d’un labyrinthe, la moyenne sera tirée vers la droite par les rats les plus lents. La moyenne est rarement tirée vers la gauche, car il y a un temps limite minimal pour pouvoir sortir du labyrinthe. Autre :Ex : si on analyse un échantillon de sang. On peut toutefois retomber sur une loi Normale, si on utilise le logarithme népérien de la variable X. On dira que Log(X)~N (u x , x2 ) On peut donc définir un nouvel espace d’échantillonnage (le logarithme est toujours >=0) appartient à [0,+∞[ Ex pratique : on prend une variable aléatoire, on calcule sa droite de Henry, si elle n’est pas normale, on prend le logarithme de la variable et on refait la droite de Henry, si c’est ok, alors on a bien affaire à une loi Log Normale. La loi Log normale est une transformation de variable. La loi T de Student Cette loi a été découverte par William Gesset en 1908. Il était brasseur et publiait ses travaux sous le pseudo : Student. Cette distribution dépend d’un paramètre supplémentaire (v) appelé le degré de liberté. Il n’y a donc pas une courbe de Student, mais une famille de courbes (à chaque valeur de v on peut définir une nouvelle courbe) En pratique on a souvent des distributions qui ressemblent à une Loi normale mais avec des queues plus épaisses (plus d’observations situées dans les queues par rapport à une normale classique). La loi de Student permet de définir ce type de distributions. La densité de probabilité d’une fonction de Student est donnée par : v 1 t2 (t ) c(1 ) 2 v v 1 ( ) 2 c v v( ) 2 La fonction gamma est une intégrale eulérienne utilisable pour calculer des factorielle non entières : en effet : (v) ( x v1e x )dx (v 1)! 0 Plus v est grand, plus on est proche d’une distribution normale. Si v tend vers l’infini alors X~N (u x , x2 ) Cfr Graphique Transparent p 3/43 Rmk :v le nombre de degré de liberté est lié au point d’inflexion (PI) de la courbe. Student est très souvent utilisé pour les tests d’hypothèse. Loi du khi carré Lois plus théoriques utilisées pour des tests d’hypothèses rarement pour donner un modèle théorique d’une distribution. 2 R ( 2 ) e 2 2 ( ) 2 v 2 v2 2 v 2 ( ) 2 La distribution de X suit une loi v2 si X X 12 X 22 ... X v2 dans laquelle Xi~N(0,1) Distribution d’une variable aléatoire qui serait la somme des carrés de variables standardisées. Le degré de liberté v représente le nombre de N(0,1)^2 que l’on doit additionner. R car une somme de carrés est toujours positive ux v x2 2v Particularité : l’allure de la fonction va changer du tout au tout en fonction de la valeur de v: En noir, v=1, en rouge : v=2, en bleu v=3. Si v tend vers l’infini on retrouve une distribution N(v,2v) Distribution de Fisher Distribution à 2 degré de liberté. X~Fv1,v2 X1 v Si X 1 X2 v2 Quotient de 2 distributions de khi carré, divisé par leur degré de liberté. X1~ v21 et X2~ v22 Si on fait cela la variable X suit une distribution de Fisher à 2 degrés (v1,v2) de liberté. Ces distributions sont les plus utilisées, bien sûr, il en existe d’autres… (FIN DES PROBABILITES) INFERENCE STATISTIQUE Le but est de tirer des conclusions sur la population en partant de l’échantillon. On définit deux parties dans l’inférence statistique : la première est l’estimation, la seconde est les tests d’hypothèses. Partie 1 : Estimation : Donner des valeurs aux caractéristiques de notre population => spécifier les paramètres.s Ex : si on détermine : que X ~ N (u x , x2 ) , il faut bien sûr déterminer les deux paramètres au niveau de la population. On va le faire au départ de l’échantillon, en estimant la moyenne et la variance au départ des données brutes. Ex : le temps mis par les rats pour sortir d’un labyrinthe suit une loi log normale : Log(X)~N (u x , x2 ) Le pH sanguin suit une loi normale : X~N (u x , x2 ) Les porcins vivants suivent une loi de Poisson : X ~ POIS(u) Le problème est que les paramètres (u x , x2 ) ne sont en général pas connus, il faut donc les estimer au moyen d’une STATISTIQUE. Une statistique est une fonction de nos observations que l’on va utiliser pour estimer les paramètres de la population. Rappel : lorsque l’on parle des paramètres de l’échantillon on utilise les lettre latine ( x , s x2 ) Lorsque l’on parle de la population, on utilise les lettres grecques (u x , x2 ) Ex : on pourrait estimer la moyenne de la population en utilisant directement la moyenne de l’échantillon. Ex : si pour les souris : x 7.6 alors u x 7.6 Evidemment cela soulève un problème, quelle est la précision de cette estimation, peuton être sure que toute la population a cette moyenne ou pas ? Ex : Prenons différents échantillons d’une même population et mesurons leur moyenne (toujours par rapport à l’exemple des souris) Echantillons X 1 7.5 2 7.55 3 7.45 4 7.50 … … Chaque échantillon contient des souris différentes de la population Nous obtenons des valeurs de moyennes tout le temps différentes car les échantillons ne représentent pas toute la population.=> Pour chaque échantillon nous avons une erreur d’échantillonnage=>une incertitude, soit nous sommes au-delà ou en dessous de la vraie valeur moyenne de la population (que l’on ne connait pas) L’incertitude (erreur d’échantillonnage) = f(la taille de l’ échantillon, la variabilité de la population). La variabilité de la population dépend du fait que la population soit hétérogène ou pas. Plus la taille de l’échantillon est petite plus on est sensible au pas de chance lors du tirage. Ex : dans le cas du pH du sang des souris, il y a peu de variabilité car ce sont en général des souris de laboratoire (très chère mais très semblables) Si on prend un grand nombre d’échantillon et que l’on a pas de chance, on va se retrouver avec des valeurs de moyenne différente qui vont suivre une distribution : On peut prendre beaucoup d’échantillon et tracer l’histogramme : X Distribution de la moyenne des échantillons pris. En pratique on ne prend jamais qu’un seul échantillon mais cet histogramme donne une idée sur la manière dont les moyennes se distribuent (sur la variabilité) Dans les notes un exemple de simulation sur ordinateur est donné : On crée une population fictive sur PC et puis on tire 100 échantillons de taille 20. et on calcule leur moyenne. Ex :pH~N(7.4, 0.003) A la p 4/9 des transparents on peut voir l’influence de la taille de l’échantillon et de la variabilité de la population On peut refaire le même exemple en prenant pH~N(7.4,0.001)=> variabilité de la population plus petite. Les moyennes vont être moins variables car la population fictive est moins variable, la variabilité diminue. Si on prend 100 échantillon de taille 20, on verra que l’histogramme est plus resserré On peut faire aussi l’exemple avec 20 échantillons de taille 20 et 20 échantillons de taille 40. On pratique on ne prend jamais qu’un seul échantillon et on n’a qu’une population. Pour augmenter la précision de l’estimation, il faut prendre de grand échantillon et limité la variabilité. Ex : ne prendre que des souris de telle race et de telle tranche d’age. Evidemment plus on limite la variabilité plus il est difficile de généraliser les résultats. Il faut donc trouver un compromis entre la précision et la généralisation possible des résultats. Augmenter la taille de l’échantillon est aussi intéressant mais cela augmente le temps et les coûts (ex : essai clinique) Idéalement on aimerait une population homogène et des échantillons de grande tailles, en pratique c’est à discuter. Précision de l’estimation, cas pratique : Théorème Si X~N (u x , x2 ) alors X ~N (u ' x , ' 2x ) Si Xi~N (u x , x2 ) et que tous les Xi sont linéairement indépendant ALORS a X ~ N ( ai ui , ai2 i2 ) Si Xi suit une loi normale, alors la combinaison linéaire des Xi suit aussi une loi normale dont les paramètres sont définis au dessus. i i Le premier paramètre de la distribution Normale représente : E( ai xi ) E(ai xi ) ai E( xi ) ai ui n 1 Xi , pour avoir la moyenne on remplace a i n i 1 n Le premier paramètre devient donc : n u i nu i ux n i 1 n On fait le même raisonnement pour trouver la variance de la moyenne : n i2 n 2 x2 i 2 n n2 i 1 n D’où : Or X X ~N( u x , x2 n ) THEOREME 2 (Central-limit) X ~N( u x , x2 ) meme si au depart les Xi ne suivent pas une loi normale. (Admis sans n démonstration). L’erreur standard de la moyenne : Standard Error of the mean (SEM)= x n Plus SEM est petit => on retrouve toujours les même valeurs pour les différents échantillons. Plus SEM est grand => chaque échantillon donne des moyennes différentes.