Statistique élémentaire avec R Partie 2 : Test d’hypothèses et régression linéaire Julien JACQUES Université Lumière Lyon 2 1 / 48 Plan Tests d’hypothèses Régression linéaire 2 / 48 Plan Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques 3 / 48 Principe d’un test statistique Un exemple 1. Test H0 : µ = µ0 contre H1 : µ ̸= µ0 2. Stat. de test T = X̄ −µ0 S √ n ∼H0 tn−1 Student à n-1 degrés de liberté 3. α = 5% 4. Zone de rejet W = {x̄ : |t| = |x̄ −µ0 | s √ > −tn−1, α2 } n 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 α α 2 2 0.05 0 -4 -3 -2 t α -1 2 0 1 t21−α 3 4 2 5. calcul de t puis acceptation de H0 si t est entre les bornes, rejet sinon 4 / 48 Principe d’un test statistique Les étapes 1. Identifier des hypothèses H0 (hyp. nulle, simple) et H1 (hyp. alternative, composite) 2. Définir un statistique de test T , dont la loi est différente sous H0 et H1 3. Choisir un risque de première espèce α (5%, 10%...) 4. Définir la zone de rejet W de H0 , en fonction de H1 (test uni- ou bilatéral) et de α 5. Calculer la valeur t de la statistique de test T 6. Conclure au rejet de H0 si t ∈ W où à son acceptation dans le cas contraire 5 / 48 Principe d’un test statistique Les risques antagonistes ❵❵❵ ❵❵❵Vérité Décision ❵❵ H0 H1 H0 H1 conclusion correcte erreur de première espèce erreur de deuxième espèce conclusion correcte Table : Erreurs associés à un test ❳❳❳ ❳❳ Vérité H0 ❳❳❳ Décision ❳❳ H0 niveau de confiance 1 − α H1 risque α Table : Risques associés à un test 6 / 48 H1 risque β 1−β Principe d’un test statistique La p-value p∗ ! ! ! plus petite valeur de α conduisant à rejeter H0 probabilité sous H0 d’observer une statistique de test aussi extrême (au sens de H1 ) que le t observé probabilité de se tromper lorsqu’on rejette H0 Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0 p∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon 7 / 48 Principe d’un test statistique La p-value p∗ ! ! ! plus petite valeur de α conduisant à rejeter H0 probabilité sous H0 d’observer une statistique de test aussi extrême (au sens de H1 ) que le t observé probabilité de se tromper lorsqu’on rejette H0 Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0 p∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon Utilisation de la p-value p∗ ! si α > p∗ : rejet de H0 7 / 48 ! si α < p∗ : acceptation de H0 Plan Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques 8 / 48 Typologie des tests Tests de liaison entre variables ! ! ! ! Tester la liaison entre deux variables quantitatives : Test de corrélation Tester la liaison entre deux variables qualitatives : Test d’indépendance du χ2 Tester la liaison entre une variable quantitative et une variable qualitative : ANOVA à 1 facteur Tester la liaison entre une variable quantitative et K variables qualitatives : ANOVA à K facteur Tests de comparaison de populations indépendantes ! ! Test de comparaisons des variances de Fisher Test de comparaisons des moyennes de Student 9 / 48 Typologie des tests - Logiciel R Tests de liaison entre variables ! ! ! ! Tester la liaison entre deux variables quantitatives : fonction cor.test Tester la liaison entre deux variables qualitatives : fonction chisq.test Tester la liaison entre une variable quantitative et une variable qualitative : fonction aov Tester la liaison entre une variable quantitative et K variables qualitatives : fonction aov Tests de comparaison de populations indépendantes ! ! Test de comparaisons des variances de Fisher : fonction var.test Test de comparaisons des moyennes de Student : fonction t.test 10 / 48 Plan Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques 11 / 48 Test de corrélation Conditions d’application : ! X et Y deux variables aléatoires quantitatives Hypothèses H0 : ρX ,Y = 0 contre H1 : ρX ,Y ̸= 0 Statistique de test T = √ !n 1−RXY l’estimateur du coefficient de corrélation Décision on rejette H0 si t > tn−2,1− α2 ou 12 / 48 i=1 (Xi −X̄ )(Yi −Ȳ ) !n 2 2 i=1 (Xi −X̄ ) i=1 (Yi −Ȳ ) n − 2 √ RXY 2 ∼H0 tn−2 où RXY = √!n t < tn−2, α2 est Test d’indépendance du χ2 Conditions d’application : ! X et Y deux variables aléatoires qualitatives à k et r modalités ! nij : nombre d’observations ayant la modalité i de X et j de Y ! ! ni. = rj=1 nij et n.j = ki=1 nij nij ≥ 5 Hypothèses H0 : X et Y indépendantes contre H1 : X et Y dépendantes Statistique de testn d2 = !k i=1 Décision !r j=1 on rejette H0 si d 2 > χ2(k −1)(r −1)1−α 13 / 48 i. n.j n ni. n.j n (nij − )2 ∼H0 χ2(k −1)(r −1) ANOVA à 1 facteur Conditions d’application : ! ! ! X une variable quantitative, A un facteur qualitatif à K modalités échantillons grands (n ≥ 30) ou gaussiens (pour chaque modalité) variances homogènes Hypothèses A influe-t-il X ? H 0 : µ1 = . . . = µK = µ contre Statistique de test F = ! VR2 VA2 K −1 / n−K VA2 = 1 n K ! où nk (X̄k − X̄ )2 est la variance expliquée par le facteur A k =1 ! VR2 est la variance résiduelle ! avec variance totale VT2 = VA2 + VR2 14 / 48 H1 : ∃1 ≤ i, j ≤ K t.q. µi ̸= µj ANOVA à 1 facteur Présentation des résultats Facteur Somme des carrés degrés de liberté carré moyen A Résidu Total SSA SSR SST K −1 n−K n−1 SSA/(K − 1) SSR/(n − K ) F F = SSA/(K −1) SSR/(n−K ) ou SSA = nVA2 , SSR = nVR2 et SST = nVT2 . Décision On conclue à un effet de A (rejet de H0 ) si F > FK −1,n−K ,1−α 15 / 48 ANOVA à 2 facteur Conditions d’application : ! ! X une variable quantitative, A et B deux facteurs qualitatifs à J et K modalités échantillons grands (n ≥ 30) ou gaussiens (pour chaque croisement de modalités) ! variances homogènes Hypothèses ! Le facteur A a-t-il une influence sur X ? Le facteur B ? ! Et l’interaction entre les deux facteurs ? ! 16 / 48 ANOVA à 2 facteur Décomposition de la variance totale SST = SSA + SSB + SSAB + SSR avec n SST = jk J " K " " 2 (Xijk − X̄... ) , SSA = j=1 k =1 i=1 SSAB = K J " " j=1 k =1 J " j=1 2 nj. (X̄.j. − X̄... ) , SSB = K " k =1 2 n.k (X̄..k − X̄... ) , n njk (X̄.jk − X̄.j. − X̄..k + X̄... )2 , et SSR = jk J " K " " j=1 k =1 i=1 (Xijk − X̄.jk )2 où n X̄.jk = 17 / 48 jk 1 " Xijk , njk i=1 X̄..k = J 1 " X̄.jk , n.k j=1 X̄.j. = K 1 " X̄.jk nj. k =1 n et X̄... = jk K J 1 """ Xijk . n j=1 k =1 i=1 ANOVA à 2 facteur Présentation des résultats Facteur Somme des carrés degrés de liberté carré moyen F SSA/(J−1) FA = SSR/(n−JK ) SSB/(K −1) FB = SSR/(n−JK ) SSAB/(K −1)(J−1) FAB = SSR/(n−JK ) A SSA J −1 SSA/(J − 1) B SSB K −1 SSB/(K − 1) Interaction AB SSAB Résidu Total (J − 1)(K − 1) SSAB/(K − 1)(J − 1) SSR SST n − JK n−1 SSR/(n − JK ) Décision ! ! ! On conclue à un effet de A si FA > FJ−1,n−JK ,1−α On conclue à un effet de B si FB > FK −1,n−JK ,1−α On conclue à un effet de l’interaction entre A et B si FAB > F(K −1)(J−1),n−JK ,1−α 18 / 48 Plan Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques 19 / 48 Test de comparaisons des variances de Fisher Conditions d’application : ! échantillons gaussiens Hypothèses H0 : σ1 = σ2 contre H1 : σ1 ̸= σ2 Statistique de test F = n1 V 2 1 n1 −1 n2 V 2 2 n2 −1 = Décision S12 S22 on rejette H0 si 20 / 48 avec S12 > S22 ∼H0 Fn1 −1,n2 −1 S12 S22 > fn1 −1,n2 −1,1−α Test de comparaisons des moyennes de Student Conditions d’application : ! ! échantillons grands (n ≥ 30) ou gaussiens variances égales : σ12 = σ22 Hypothèses H0 : µ1 = µ2 contre H1 : µ1 ̸= µ2 Statistique de test T = # X̄1 −X̄2 −(µ1 −µ2 ) $ % n1 V 2 +n2 V 2 1 1 2 1 n +n −2 n +n 1 2 1 ∼H0 tn1 +n2 −2 2 Décision on rejette H0 si |x̄1 − x̄2 | > −tn1 +n2 −2, α2 21 / 48 " n1 v12 +n2 v22 n1 +n2 −2 # 1 n1 + 1 n2 $ . Test de comparaisons des moyennes de Student Conditions d’application : ! ! échantillons grands (n ≥ 30) ou gaussien variances différentes : σ12 ̸= σ22 Hypothèses H0 : µ1 = µ2 contre H1 : µ1 ̸= µ2 Correction d’Aspin Welch il faut remplacer le nombre de degrés de liberté de la loi de Student (n1 + n2 − 2 lorsque les variances sont égales) par l’entier le plus proche de : v12 1 n1 −1 n= 2 où c = v 2 (1−c)2 v22 c 1 n1 −1 + n2 −1 n1 −1 + n2 −1 22 / 48 Test de comparaisons des moyennes de Student cas apparié Conditions d’application : ! ! échantillons grands (n ≥ 30) ou gaussiens échantillons dépendants (appariés) : chaque échantillon correspond à des mesures différentes des mêmes individus Test on travaille sur la différence Di = X1i − X2i entre les 2 échantillons, et on test la nullité de la moyenne des Di : H0 : µ = 0 contre H1 : µ ̸= 0 23 / 48 Test de comparaisons des moyennes de Student cas unilatéral Conditions d’application : ! ! échantillons grands (n ≥ 30) ou gaussiens variances égales : σ12 = σ22 (sinon correction Aspin-Welch) Hypothèses H0 : µ1 = µ2 contre H1 : µ1 > µ2 Statistique de test T = # X̄1 −X̄2 −(µ1 −µ2 ) $ % n1 V 2 +n2 V 2 1 1 1 2 n +n −2 n +n 1 2 1 ∼H0 tn1 +n2 −2 2 Décision on rejette H0 si 24 / 48 x̄1 > x̄2 − tn1 +n2 −2, α2 " n1 v12 +n2 v22 n1 +n2 −2 # 1 n1 + 1 n2 $ . Plan Tests d’hypothèses Régression linéaire 25 / 48 Modélisation statistique Les différents types de modélisation Variable à expliquer 1 quanti. 1 quanti. 1 quanti. 1 quanti. Variables explicatives 1 quanti. plusieurs quanti. plusieurs quali. plusieurs quali. et quanti. Nom de l’analyse régression simple régression multiple analyse de variance analyse de covariance Objectifs ! prédictifs ! descriptifs : sélection des variables pertinentes, forme du modèle Les étapes ! ! ! identifier le problème → choix du modèle statistique estimer les paramètres évaluer la qualité de la modélisation obtenue utiliser le modèle pour répondre à la question posée ! 26 / 48 Plan Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques 27 / 48 Le modèle de régression linéaire simple Les données Un échantillon (Xi Yi )i=1,n ! ! variable à prédire : Y variable explicative : X si la liaison entre X et Y n’est pas linéaire, tester des transformations (log, puissance...) Le modèle Yi = β0 + β1 Xi + ϵi où ϵi ∼ N (0, σ 2 ) i.i.d Écriture matricielle : ⎤ Y1 ⎢ . ⎥ ⎣ .. ⎦ Yn ⎡ Y 28 / 48 1 ⎢ . ⎣ .. 1 ⎡ ⎤ ⎤ X1 ( ϵ1 ) .. ⎥ β0 + ⎢ .. ⎥ ⎣ . ⎦ . ⎦ β1 Xn ϵn = ⎡ = Xβ + ϵ Le modèle de régression linéaire simple Estimation des paramètres On cherche β = (β0 , β1 ) minimisant l’écart entre les valeurs prédites Ŷi = β0 + Xi β1 et les valeurs observées Yi : min n % i=1 (Yi − β0 − Xi β1 )2 Les solutions sont βˆ0 = Ȳ − βˆ1 X̄ , où SXY = X et Y . 29 / 48 1 n−1 !n i=1 (Xi SXY βˆ1 = 2 . SX − X̄ )(Yi − Ȳ ) est l’estimateur de la covariance de Plan Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques 30 / 48 Le modèle de régression linéaire multiple Les données Un échantillon (Xi1 , . . . , Xip , Yi )i=1,n ! ! variable à prédire : Y p variables explicatives : X1 , . . . , Xp Le modèle Yi = β0 + p % βj Xij + ϵi j=1 où ϵi ∼ N ⎡ (0, σ 2 )⎤i.i.d 31 / 48 Y1 ⎢ . ⎥ ⎣ .. ⎦ Yn = Y = 1 ⎢ . ⎣ .. 1 ⎡ X11 .. . Xn1 Xβ + ϵ ... ... ⎤ ⎡ ⎡ ⎤ β X1p ⎢ 0 ⎥ β 1 ⎥ ⎢ .. ⎥ ⎢ . ⎥+⎣ . ⎦⎢ ⎣ .. ⎦ Xnp βp ⎤ ϵ1 .. ⎥ . ⎦ ϵn (1) (2) Le modèle de régression linéaire multiple Estimation des paramètres On cherche β = (β0 , β1 , . . . , βp ) minimisant l’écart entre les valeurs !p prédites Ŷi = β0 + j=1 βj Xij et les valeurs observées Yi : min n % i=1 (Yi − β0 − p % j=1 La solution est β̂ = (X′ X)−1 X′ Y. 32 / 48 βj Xij )2 Plan Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques 33 / 48 Normalité des résidus Dans le but de faire des tests sur le modèle de régression obtenus, nous avons fait l’hypothèse de normalité des résidus ϵi = ŷi − yi . Test de normalité Il existe des tests statistiques permettant de tester l’adéquation d’une série de données (ici les résidus) à une loi normale : ! test de Shapiro-Wilk: fonction shapiro.test 34 / 48 Homoscédasticité des résidus La technique d’estimation utilisée suppose que résidus ϵi = ŷi − yi ont une variance σ 2 constante (ne dépendant pas de i). Homoscédasticité des résidus Pour vérifier cette hypothèse, on représente généralement les résidus en fonction des variables explicatives (ou des valeurs prédites), et on vérifie visuellement que la variance est homogène sur l’ensemble de variation de chaque variable explicative ! représentation graphique 35 / 48 Test de non corrélation des résidus La technique d’estimation utilisée suppose que les résidus sont non corrélés. Test de Durbin-Watson Le test de Durbin-Watson permet de vérifier que les ϵi ne sont pas corrélés. Statistique de test : !n (ϵi − ϵi−1 )2 d = i=2!n 2 i=1 ϵi qui doit être proche de 2. 36 / 48 Analyse de variance de la régression On teste l’apport du modèle de régression Hypothèses H0 : β1 = . . . = βp = 0 contre H1 : ∃j : βj ̸= 0 Statistique de test On décompose la variance de Y en ||Y − Ȳ||22 = ||Ŷ − Ȳ||22 + ||Y − Ŷ||22 & '( ) & '( ) & '( ) SST Source Régression Erreur Total Somme des carrés SSReg SSR SST degrés de liberté p n−p−1 n−1 SSReg SSR carré moyen MSReg = SSReg/p MSR = SSR/(n − p − 1) F F = Décision on rejette H0 (la régression est valide) si F > fp,n−p−1,1−α 37 / 48 MSReg MSR Analyse de variance de la régression SST variance totale 38 / 48 SSReg variance expliquée SSR variance résiduelle Coefficient de détermination Coefficient de détermination Le coefficient de détermination R 2 : R2 = SSReg SST est un indicateur de la qualité du modèle de régression. Propriétés : ! ! ! R 2 ∈ [0, 1] dans le cas de la régression simple : R 2 = ρ2XY plus le nombre de variables est grand, plus R 2 est grand 39 / 48 Coefficient de détermination ajusté Coefficient de détermination ajusté 2 Le coefficient de détermination ajusté Radj : 2 Radj = (n − 1)R 2 − d n−d −1 est un indicateur de la qualité du modèle de régression, prenant en compte la complexité du modèle (nombre de variables). Propriétés : ! R2 adj ∈ [0, 1] ! 2 plus Radj est grand, meilleure est la régression 40 / 48 Tests de la nullité des paramètres du modèle On peut également tester l’apport de chaque variable dans le modèle Hypothèses H0 : βj = 0 contre H1 : βj ̸= 0 Statistique de test T = β̂j −βj σβ̂ j ∼H0 tn−p−1 Décision on rejette H0 (et donc on enlève la variable du modèle) si |t| > tn−1,1− α2 . 41 / 48 Plan Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques 42 / 48 Prédiction Pour une valeur x ∗ = (1, x1∗ , . . . , xp∗ )′ de X , la prévision de Y sera donnée par ŷ ∗ = x ∗ ′ β̂. Un intervalle de confiance de niveau 1 − α pour la valeur y ∗ sera construit à partir de cette prévision ponctuelle : & x ∗ ′ β̂ ± tn−p−1,1−α/2 σ̂ 1 + x ∗ ′ (X′ X)−1 x ∗ . 43 / 48 (3) (4) Plan Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques 44 / 48 Détection d’observations atypiques Effet levier L’effet levier hi mesure l’impact de Yi dans l’estimation Ŷi hi = 1 (Xi − X̄ )2 + !n . 2 n j=1 (Xj − X̄ ) Cet impact est directement lié à l’éloignement de l’observation Xi à la moyenne des observations X̄ . effet levier hi grand ⇒ observations atypiques 45 / 48 Détection d’observations atypiques Résidus ϵi = Ŷi − Yi Résidus normalisés/studentisés 2 ri = Sϵ(i) ϵi √ 1−hi où Sϵ(i) = n−2 S n−3 ϵ − ϵi 1 n−3 1−hi |ri | > 2 ⇒ observations atypiques 46 / 48 Détection d’observations atypiques ! ! effet levier ⇒ éloignement d’une observation à la moyenne résidus normalisés ⇒ éloignement observation / prédiction La distance de Cook synthétisant ces deux informations. Distance de Cook Di = !n j=1 (Ŷj(i) − 2Sϵ2 Ŷj )2 = hi r2 2(1 − hi ) i où Ŷj(i) : estimation de Yj obtenue sans utiliser (Xi , Yi ). Di > 1 ⇒ observations atypiques 47 / 48 Régression linéaire avec R L’analyse 1. charger les données : >data=read.table(’filename.dat’,header=TRUE) 2. estimer le modèle : >modele=lm(y ∼ .,data=data) 3. tester la normalité des résidus : >shapiro.test(modele$residuals) 4. vérifier graphiquement l’homoscédasticité et la normalité des résidus, la présence d’individus atypiques ... : plot(modele) 5. tester l’auto-corrélation des résidus (package lmtest) : >dwtest(modele) 6. analyser la qualité du modèle et l’apport de chaque variable : >summary(modele) 48 / 48