Optimal Sup-Spé. Le n° 1 Calculer une covariance Maths Spé - Concours 2015 Problématique Comment calculer la covariance d’un couple de variables aléatoires réelles discrètes X et Y définies sur un même espace probabilisé pΩ, A, P q ? Quelles sont les propriétés de la covariance ? Réponse Attention ! Rappelons pour commencer que la covariance d’un couple de variables aléatoires n’existe pas toujours ! Pour justifier l’existence de la covariance d’une variable aléatoire, deux cas se présentent : — si pX, Y qpΩq est fini, alors le couple pX, Y q admet une covariance, — si pX, Y qpΩq est infini, alors le couple pX, Y q admet une covariance admet une variance si et seulement ř si, la série double pxi ´ EpXqqpyj ´ EpY qqP pX “ xi , Y “ yj q converge. pxi ,yj qPpX,Y qpΩq Une condition suffisante d’existence : si X et Y admettent un moment d’ordre 2, alors le couple pX, Y q admet une covariance. Théorème ř Rappel de cours de transfert pour un couple de variables aléatoires. Si la série double f ppxi , yj qP pX “ xi , Y “ yj q converge, alors fppX, Y qq admet une espérance, et on a alors : pxi ,yj qPpX,Y qpΩq E pf ppX, Y qqq “ ř f ppxi , yj qP pX “ xi , Y “ yj q. pxi ,yj qPpX,Y qpΩq Lorsque l’existence de la covariance du couple pX, Y q a été établie, on a alors le choix entre utiliser la définition (rare) ou la formule de Huygens. : Optimal Sup/Spé - 11, rue Geoffroy l’Angevin 75004 Paris - tel : 01.40.26.78.78 - www.optimalsupspe.fr 2 - Concours 2015 Rappel de cours Définition. covpX, Y q “ E rpX ´ EpXqqpY ´ EpY qqs. Formule de König-Huygens. covpX, Y q “ EpXY q ´ EpXqEpY q. Propriétés. — covpX, Xq “ V pXq, — covpX, Y q “ covpY, Xq, — covpaX ` bY, Zq “ a covpX, Zq ` b covpY, Zq. 1. Le calcul de la covariance : attention au support de pX, Y q Pour calculer la covariance, il faut le plus souvent se ramener à la formule de König-Huygens et calculer EpXY q. Dans ce calcul, qui se fait toujours à l’aide du théorème de transfert, il ne faut pas oublier qu’il s’agit d’une double somme, et non d’une somme simple. Attention également aux indices : dans certains exercices, il peut arriver que X et Y soient liées, par exemple que X soit toujours inférieure à Y . Il faut calculer la somme sur le support du couple, à savoir sur pX, Y qpΩq. Par exemple, si X représente le plus petit numéro obtenu et Y le plus grand numéro obtenu dans une suite de deux tirages sans remise d’une boule dans une urne contenant n boules numérotées de 1 à n, alors X est toujours inférieur strictement à Y . Dans cet exemple, il ne faut pas calculer la double somme pour chaque valeur i et j de X et de Y mais pour chaque valeur possible pi, jq du couple pX, Y q, avec ici la condition i ă j. 2. Covariance et corrélation linéaire Lorsque covpX, Y q ą 0, on dit que les variables X et Y sont positivement corrélées. L’interprétation d’une covariance positive est la suivante : plus X est élevé, plus, en moyenne, Y est élevé (et réciproquement). Lorsque covpX, Y q ă 0, on dit que les variables X et Y sont négativement corrélées. L’interprétation d’une covariance positive est alors la suivante : plus X est élevé, plus, en moyenne, Y est petit (et réciproquement). Enfin, lorsque covpX, Y q “ 0, on dit que les variables X et Y ne sont pas corrélées. La covariance est un outil pour mesurer la corrélation linéaire entre deux variables aléatoires. 3. Le coefficient de corrélation linéaire Rappel de cours Le coefficient de corrélation linéaire. Lorsque pX, Y q admet une covariance, on définit le coefficient de corrélation linéaire du couple pX, Y q, et l’on note ρX,Y , le nombre : ρX,Y “ covpX, Y q . σpXqσpY q Propriété. On a : |ρX,Y | ď 1. Le coefficient de corrélation linéaire mesure le degré de corrélation entre X et Y . Si ce coefficient vaut `1, Y est une fonction affine (ou quasi affine) de X, c’est-à-dire que l’on a (presque sûrement) Y “ aX ` b, et l’on a : a ą 0. De façon analogue, si ce coefficient vaut ´1, Y est une fonction affine (ou quasi affine) de X, c’est-à-dire que l’on a (presque sûrement) Y “ aX ` b, et l’on a : a ă 0. Plus le coefficient de corrélation entre X et Y est élevé, plus la corrélation est forte entre les variables X et Y . En 3 - Concours 2015 statistiques, on a coutume d’évaluer qu’un modèle linéaire prédit correctement les variations de Y en fonction de X dès lors que le coefficient de corrélation est supérieur en valeur absolue à 0, 8. 4. Indépendance et corrélation. Il faut se souvenir que deux variables indépendantes ne sont pas corrélées : Rappel de cours Si X et Y sont indépendantes, alors covpX, Y q “ 0. Attention ! La réciproque est fausse. 5. Un exemple Considérons X le plus petit numéro obtenu, et Y le plus grand numéro obtenu, dans une suite de deux tirages sans remise d’une boule dans une urne contenant n boules numérotées de 1 à n. ( Des calculs de probabilités prouvent que pX, Y qpΩq “ pi, jq P rr 1 , n ss2ˆ, 1˙ď i ă j ď n , et que pour tout couple 2 n pi, jq P pX, Y qpΩq, P pX “ i, Y “ jq “ . Cette somme comportant termes (voir le Polycopié Dénom2 npn ´ 1q brements), on vérifie que la somme des probabilités fait 1, ce qui est le cas. Des calculs de lois, puis d’espérance, n`1 2pn ` 1q prouvent également que : EpXq “ , et que EpY q “ (voir le Polycopié Probabilités). Intéressons3 3 nous ici au calcul de la covariance. Commençons d’abord par préciser que X et Y prennent un nombre fini de valeurs, donc admettent un moment d’ordre 2, ce qui suffit à établir l’existence de la covariance de pX, Y q. On a, d’après le théorème de transfert : ř EpXY q = ijP pX “ i, Y “ jq. 1ďiăjďn EpXY q “ n j´1 ř ř 2 j i npn ´ 1q j“2 i“1 EpXY q “ n pj ´ 1qj ř 2 j . npn ´ 1q j“2 2 EpXY q “ n ř 1 pj 3 ´ j 2 q. npn ´ 1q j“2 En ajoutant et en retranchant 1, il vient : n ř 1 pj 3 ´ j 2 q. npn ´ 1q j“1 EpXY q “ EpXY q “ 1 npn ´ 1q ˆ ˙ n2 pn ` 1q2 npn ` 1qp2n ` 1q ´ , 4 6 soit après calculs : EpXY q “ D’après la formule de König-Huygens, il vient : pn ` 1qp3n ` 2q . 12 4 - Concours 2015 covpX, Y q “ Comme : EpXq “ pn ` 1qp3n ` 2q ´ EpXqEpY q. 12 2pn ` 1q n`1 et que EpY q “ , on a finalement : 3 3 covpX, Y q “ pn ` 1qp3n ` 2q 2pn ` 1q2 ´ , 12 9 et l’on peut ainsi conclure : covpX, Y q “ pn ` 1qpn ´ 2q . 36 Interprétation du signe de la covariance : il est logique que covpX, Y q ą 0 puisque ici, plus X prend une valeur élevée, plus, en moyenne Y prend une valeur élevé. En effet, si l’on a obtenu un grand numéro, noté k, comme valeur pour X (i.e. si le plus petit des deux numéros est égal à k), cela interdit au plus grand des deux numéros obtenus, Y , de prendre des valeurs petites (toutes les valeurs inférieures ou égales à k étant désormais impossibles). Ainsi, plus X est élevé, plus, en moyenne, Y est élevé. Les variables X et Y sont positivement corrélées. Remarque On a vu que l’indépendance de deux variables aléatoires réelles discrètes impliquait la nullité de la covariance de ce couple, et que la réciproque était fausse. Il n’en reste pas moins que la contraposée de cette propriété est vraie (si A implique B, non-B implique toujours non-A). Ici, puisque covpX, Y q ‰ 0 (dès lors que n ą 3, on déduit de la propriété précédente, par contraposée, que X et Y ne sont pas indépendantes. Enfin, on peut remarquer que la covariance s’annule lorsque n “ 2. C’est logique, car s’il y a deux boules dans l’urne, X et Y sont constantes, égales respectivement à 1 et 2. Or, deux variables constantes sont indépendantes, et donc de covariance nulle. 6. Conclusion En guise de conclusion on rappellera l’importance qu’il y a à interpréter les résultats en probabilités, ici le signe de la covariance, et à bien connaître les liens entre indépendance et corrélation. On pourra aussi rappeler que le calcul n’est pas la seule arme disponible pour déterminer une covariance : Point méthode Calculer une covariance : une méthode alternative. Lorsque l’on connaît la variance de X ` Y ainsi que les variance respectives de X et de Y , on peut utiliser les propriétés de la variance : V pX ` Y q “ V pXq ` V pY q ` 2covpX, Y q, d’où : 1 rV pX ` Y q ´ V pXq ´ V pY qs. 2 Application : cette astuce pourrait s’appliquer à l’exemple précédent, sous réserve d’avoir préalablement calculé V pXq et V pY q. On peut en effet remarquer que X ` Y est la somme des deux premiers numéros obtenus. En notant N1 et N2 les variables aléatoires correspondantes au premier et au second numéro obtenu, N1 suit clairement une loi uniforme sur rr 1 , n ss. Il en est de même pour N2 (malgré l’absence de remise) puisque toutes les boules jouent un rôle symétrique. Dès lors : V pX ` Y q “ V pN1 ` N2 q “ V pN1 q ` V pN2 q ` 2covpN1 , N2 q “ n2 ´ 1 2ˆ ` 2covpN1 , N2 q. Le calcul de covpN1 , N2 q, si on l’a déjà effectué préalablement, permet de trouver 12 V pX ` Y q, puis par différence, de retrouver la covariance de X et Y . La méthode directe était toutefois ici plus rapide. covpX, Y q “