Statistique de base avec R Partie 2 : Test d’hypothèses et régression linéaire Julien JACQUES Polytech’Lille - Université Lille 1 Julien JACQUES (Polytech’Lille) Statistiques de base 1 / 48 Plan 1 Tests d’hypothèses 2 Régression linéaire Julien JACQUES (Polytech’Lille) Statistiques de base 2 / 48 Plan 1 Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 3 / 48 Principe d’un test statistique Un exemple 1 2 Test H0 : µ = µ0 contre H1 : µ 6= µ0 Stat. de test T = X̄ −µ0 S √ n ∼H0 tn−1 Student à n-1 degrés de liberté 3 α = 5% 4 Zone de rejet W = {x̄ : |t| = |x̄ −µ0 | √s n > −tn−1, α2 } 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 α 0.1 α 2 2 0.05 0 -4 5 -3 α -2 t -1 0 1 2 t2 1−α 3 4 2 calcul de t puis acceptation de H0 si t est entre les bornes, rejet sinon Julien JACQUES (Polytech’Lille) Statistiques de base 4 / 48 Principe d’un test statistique Les étapes 1 Identifier des hypothèses H0 (hyp. nulle, simple) et H1 (hyp. alternative, composite) 2 Définir un statistique de test T , dont la loi est différente sous H0 et H1 3 Choisir un risque de première espèce α (5%, 10%...) 4 Définir la zone de rejet W de H0 , en fonction de H1 (test uni- ou bilatéral) et de α 5 Calculer la valeur t de la statistique de test T 6 Conclure au rejet de H0 si t ∈ W où à son acceptation dans le cas contraire Julien JACQUES (Polytech’Lille) Statistiques de base 5 / 48 Principe d’un test statistique Les risques antagonistes ❳❳ ❳❳ Vérité Décision ❳❳❳❳ H0 H1 H0 H1 conclusion correcte erreur de première espèce erreur de deuxième espèce conclusion correcte Table : Erreurs associés à un test ❳❳ ❳❳❳ Vérité ❳❳ ❳ ❳❳❳ Décision H0 H1 H0 H1 niveau de confiance 1 − α risque α risque β 1−β Table : Risques associés à un test Julien JACQUES (Polytech’Lille) Statistiques de base 6 / 48 Principe d’un test statistique La p-value p∗ plus petite valeur de α conduisant à rejeter H0 probabilité sous H0 d’observer une statistique de test aussi extrême (au sens de H1 ) que le t observé probabilité de se tromper lorsqu’on rejette H0 Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0 p ∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon Julien JACQUES (Polytech’Lille) Statistiques de base 7 / 48 Principe d’un test statistique La p-value p∗ plus petite valeur de α conduisant à rejeter H0 probabilité sous H0 d’observer une statistique de test aussi extrême (au sens de H1 ) que le t observé probabilité de se tromper lorsqu’on rejette H0 Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0 p ∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon Utilisation de la p-value p∗ si α > p ∗ : rejet de H0 si α < p ∗ : acceptation de H0 Julien JACQUES (Polytech’Lille) Statistiques de base 7 / 48 Plan 1 Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 8 / 48 Typologie des tests Tests de liaison entre variables Tester la liaison entre deux variables quantitatives : Test de corrélation Tester la liaison entre deux variables qualitatives : Test d’indépendance du χ2 Tester la liaison entre une variable quantitative et une variable qualitative : ANOVA à 1 facteur Tester la liaison entre une variable quantitative et K variables qualitatives : ANOVA à K facteur Tests de comparaison de populations indépendantes Test de comparaisons des variances de Fisher Test de comparaisons des moyennes de Student Julien JACQUES (Polytech’Lille) Statistiques de base 9 / 48 Typologie des tests - Logiciel R Tests de liaison entre variables Tester la liaison entre deux variables quantitatives : fonction cor.test Tester la liaison entre deux variables qualitatives : fonction chisq.test Tester la liaison entre une variable quantitative et une variable qualitative : fonction aov Tester la liaison entre une variable quantitative et K variables qualitatives : fonction aov Tests de comparaison de populations indépendantes Test de comparaisons des variances de Fisher : fonction var.test Test de comparaisons des moyennes de Student : fonction t.test Julien JACQUES (Polytech’Lille) Statistiques de base 10 / 48 Plan 1 Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 11 / 48 Test de corrélation Conditions d’application : X et Y deux variables aléatoires quantitatives Hypothèses H0 : ρX ,Y = 0 contre H1 : ρX ,Y 6= 0 Statistique de test T = √ Pn i=1 (Xi −X̄ )(Yi −Ȳ ) Pn 2 2 i=1 (Xi −X̄ ) i=1 (Yi −Ȳ ) n − 2 √ RXY 2 ∼H0 tn−2 où RXY = √Pn 1−RXY l’estimateur du coefficient de corrélation est Décision on rejette H0 si t > tn−2,1− α2 ou Julien JACQUES (Polytech’Lille) t < tn−2, α2 Statistiques de base 12 / 48 Test d’indépendance du χ2 Conditions d’application : X et Y deux variables aléatoires qualitatives à k et r modalités nij : nombre d’observations ayant la modalité i de X et j de Y Pr Pk ni. = j=1 nij et n.j = i=1 nij nij ≥ 5 Hypothèses H0 : X et Y indépendantes contre H1 : X et Y dépendantes Statistique de test d2 = Pk i=1 Pr ni. n.j )2 n ni. n.j (nij − j=1 n ∼H0 χ2(k −1)(r −1) Décision on rejette H0 si d 2 > χ2(k −1)(r −1)1−α Julien JACQUES (Polytech’Lille) Statistiques de base 13 / 48 ANOVA à 1 facteur Conditions d’application : X une variable quantitative, A un facteur qualitatif à K modalités échantillons grands (n ≥ 30) ou gaussiens (pour chaque modalité) variances homogènes Hypothèses A influe-t-il X ? H 0 : µ1 = . . . = µK = µ contre H1 : ∃1 ≤ i, j ≤ K t.q. µi 6= µj Statistique de test F = VR2 VA2 K −1 / n−K VA2 = 1 n K X où nk (X̄k − X̄ )2 est la variance expliquée par le facteur A k =1 VR2 est la variance résiduelle avec variance totale VT2 = VA2 + VR2 Julien JACQUES (Polytech’Lille) Statistiques de base 14 / 48 ANOVA à 1 facteur Présentation des résultats Facteur Somme des carrés degrés de liberté carré moyen A Résidu Total SSA SSR SST K −1 n−K n−1 SSA/(K − 1) SSR/(n − K ) F F = SSA/(K −1) SSR/(n−K ) ou SSA = nVA2 , SSR = nVR2 et SST = nVT2 . Décision On conclue à un effet de A (rejet de H0 ) si F > FK −1,n−K ,1−α Julien JACQUES (Polytech’Lille) Statistiques de base 15 / 48 ANOVA à 2 facteur Conditions d’application : X une variable quantitative, A et B deux facteurs qualitatifs à J et K modalités échantillons grands (n ≥ 30) ou gaussiens (pour chaque croisement de modalités) variances homogènes Hypothèses Le facteur A a-t-il une influence sur X ? Le facteur B ? Et l’interaction entre les deux facteurs ? Julien JACQUES (Polytech’Lille) Statistiques de base 16 / 48 ANOVA à 2 facteur Décomposition de la variance totale SST = SSA + SSB + SSAB + SSR avec n SST = jk J X K X X (Xijk − X̄... )2 , SSA = j=1 k =1 i=1 SSAB = J X nj. (X̄.j. − X̄... )2 , SSB = n.k (X̄..k − X̄... )2 , k =1 j=1 J X K X K X n njk (X̄.jk − X̄.j. − X̄..k + X̄... )2 , et SSR = jk J X K X X (Xijk − X̄.jk )2 j=1 k =1 i=1 j=1 k =1 où n X̄.jk = jk 1 X Xijk , njk i=1 X̄..k = Julien JACQUES (Polytech’Lille) J 1 X X̄.jk , n.k j=1 X̄.j. = K 1 X X̄.jk nj. k =1 Statistiques de base n et X̄... = jk J K 1 XXX Xijk . n j=1 k =1 i=1 17 / 48 ANOVA à 2 facteur Présentation des résultats Facteur Somme des carrés degrés de liberté carré moyen F A SSA J−1 SSA/(J − 1) FA = SSR/(n−JK ) SSB/(K −1) FB = SSR/(n−JK ) B SSB K −1 SSB/(K − 1) Interaction AB SSAB Résidu Total SSR SST (J − 1)(K − 1) SSAB/(K − 1)(J − 1) n − JK n−1 SSA/(J−1) FAB = SSAB/(K −1)(J−1) SSR/(n−JK ) SSR/(n − JK ) Décision On conclue à un effet de A si FA > FJ−1,n−JK ,1−α On conclue à un effet de B si FB > FK −1,n−JK ,1−α On conclue à un effet de l’interaction entre A et B si FAB > F(K −1)(J−1),n−JK ,1−α Julien JACQUES (Polytech’Lille) Statistiques de base 18 / 48 Plan 1 Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 19 / 48 Test de comparaisons des variances de Fisher Conditions d’application : échantillons gaussiens Hypothèses H0 : σ1 = σ2 contre H1 : σ1 6= σ2 Statistique de test F = n1 V12 n1 −1 n2 V 2 2 n2 −1 = S12 S22 avec S12 > S22 ∼H0 Fn1 −1,n2 −1 Décision on rejette H0 si Julien JACQUES (Polytech’Lille) S12 S22 > fn1 −1,n2 −1,1−α Statistiques de base 20 / 48 Test de comparaisons des moyennes de Student Conditions d’application : échantillons grands (n ≥ 30) ou gaussiens variances égales : σ12 = σ22 Hypothèses H0 : µ1 = µ2 contre H1 : µ1 6= µ2 Statistique de test T = r X̄1 −X̄2 −(µ1 −µ2 ) n1 V 2 +n2 V 2 1 1 2 + n1 n +n −2 n 1 2 1 ∼H0 tn1 +n2 −2 2 Décision on rejette H0 si |x̄1 − x̄2 | > −tn1 +n2 −2, α2 Julien JACQUES (Polytech’Lille) r n1 v12 +n2 v22 n1 +n2 −2 1 n1 + Statistiques de base 1 n2 . 21 / 48 Test de comparaisons des moyennes de Student Conditions d’application : échantillons grands (n ≥ 30) ou gaussien variances différentes : σ12 6= σ22 Hypothèses H0 : µ1 = µ2 contre H1 : µ1 6= µ2 Correction d’Aspin Welch il faut remplacer le nombre de degrés de liberté de la loi de Student (n1 + n2 − 2 lorsque les variances sont égales) par l’entier le plus proche de : n= Julien JACQUES (Polytech’Lille) 1 c2 n1 −1 + (1−c)2 n2 −1 où c = Statistiques de base v12 n1 −1 v12 n1 −1 + v22 n2 −1 22 / 48 Test de comparaisons des moyennes de Student - cas apparié Conditions d’application : échantillons grands (n ≥ 30) ou gaussiens échantillons dépendants (appariés) : chaque échantillon correspond à des mesures différentes des mêmes individus Test on travaille sur la différence Di = X1i − X2i entre les 2 échantillons, et on test la nullité de la moyenne des Di : H0 : µ = 0 contre H1 : µ 6= 0 Julien JACQUES (Polytech’Lille) Statistiques de base 23 / 48 Test de comparaisons des moyennes de Student - cas unilatéral Conditions d’application : échantillons grands (n ≥ 30) ou gaussiens variances égales : σ12 = σ22 (sinon correction Aspin-Welch) Hypothèses H0 : µ1 = µ2 contre H1 : µ1 > µ2 Statistique de test T = r X̄1 −X̄2 −(µ1 −µ2 ) n1 V 2 +n2 V 2 1 1 2 + n1 n +n −2 n 1 2 1 ∼H0 tn1 +n2 −2 2 Décision on rejette H0 si Julien JACQUES (Polytech’Lille) x̄1 > x̄2 − tn1 +n2 −2, α2 Statistiques de base r n1 v12 +n2 v22 n1 +n2 −2 1 n1 + 1 n2 . 24 / 48 Plan 1 Tests d’hypothèses 2 Régression linéaire Julien JACQUES (Polytech’Lille) Statistiques de base 25 / 48 Modélisation statistique Les différents types de modélisation Variable à expliquer 1 quanti. 1 quanti. 1 quanti. 1 quanti. Variables explicatives 1 quanti. plusieurs quanti. plusieurs quali. plusieurs quali. et quanti. Nom de l’analyse régression simple régression multiple analyse de variance analyse de covariance Objectifs prédictifs descriptifs : sélection des variables pertinentes, forme du modèle Les étapes identifier le problème → choix du modèle statistique estimer les paramètres évaluer la qualité de la modélisation obtenue utiliser le modèle pour répondre à la question posée Julien JACQUES (Polytech’Lille) Statistiques de base 26 / 48 Plan 1 Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 27 / 48 Le modèle de régression linéaire simple Les données Un échantillon (Xi Yi )i=1,n variable à prédire : Y variable explicative : X si la liaison entre X et Y n’est pas linéaire, tester des transformations (log, puissance...) Le modèle Yi = β0 + β1 Xi + ǫi où ǫi ∼ N (0, σ 2 ) i.i.d Écriture matricielle : ǫ1 Y1 1 X1 .. . .. β0 + .. . . = .. . β1 ǫn Yn 1 Xn Y = Xβ + ǫ Julien JACQUES (Polytech’Lille) Statistiques de base 28 / 48 Le modèle de régression linéaire simple Estimation des paramètres On cherche β = (β0 , β1 ) minimisant l’écart entre les valeurs prédites Ŷi = β0 + Xi β1 et les valeurs observées Yi : min n X i=1 (Yi − β0 − Xi β1 )2 Les solutions sont βˆ0 = Ȳ − βˆ1 X̄ , 1 où SXY = n−1 de X et Y . Pn i=1 (Xi Julien JACQUES (Polytech’Lille) SXY βˆ1 = 2 . SX − X̄ )(Yi − Ȳ ) est l’estimateur de la covariance Statistiques de base 29 / 48 Plan 1 Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 30 / 48 Le modèle de régression linéaire multiple Les données Un échantillon (Xi1 , . . . , Xip , Yi )i=1,n variable à prédire : Y p variables explicatives : X1 , . . . , Xp Le modèle Yi = β0 + p X βj Xij + ǫi j=1 où ǫi ∼ N (0, σ 2 ) i.i.d Y1 .. . = Yn Y = Julien JACQUES (Polytech’Lille) 1 .. . 1 X11 .. . Xn1 Xβ + ǫ β . . . X1p 0 .. β1 . . .. . . . Xnp βp Statistiques de base + ǫ1 .. . ǫn (1) (2) 31 / 48 Le modèle de régression linéaire multiple Estimation des paramètres On cherche β = (β0 , β1 , . . . , βp ) minimisant l’écart entre les valeurs P prédites Ŷi = β0 + pj=1 βj Xij et les valeurs observées Yi : p n X X βj Xij )2 (Yi − β0 − min i=1 j=1 La solution est β̂ = (X′ X)−1 X′ Y. Julien JACQUES (Polytech’Lille) Statistiques de base 32 / 48 Plan 1 Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 33 / 48 Normalité des résidus Dans le but de faire des tests sur le modèle de régression obtenus, nous avons fait l’hypothèse de normalité des résidus ǫi = ŷi − yi . Test de normalité Il existe des tests statistiques permettant de tester l’adéquation d’une série de données (ici les résidus) à une loi normale : test de Shapiro-Wilk: fonction shapiro.test Julien JACQUES (Polytech’Lille) Statistiques de base 34 / 48 Homoscédasticité des résidus La technique d’estimation utilisée suppose que résidus ǫi = ŷi − yi ont une variance σ 2 constante (ne dépendant pas de i). Homoscédasticité des résidus Pour vérifier cette hypothèse, on représente généralement les résidus en fonction des variables explicatives (ou des valeurs prédites), et on vérifie visuellement que la variance est homogène sur l’ensemble de variation de chaque variable explicative représentation graphique Julien JACQUES (Polytech’Lille) Statistiques de base 35 / 48 Test de non corrélation des résidus La technique d’estimation utilisée suppose que les résidus sont non corrélés. Test de Durbin-Watson Le test de Durbin-Watson permet de vérifier que les ǫi ne sont pas corrélés. Statistique de test : Pn (ǫi − ǫi−1 )2 d = i=2Pn 2 i=1 ǫi qui doit être proche de 2. Julien JACQUES (Polytech’Lille) Statistiques de base 36 / 48 Analyse de variance de la régression On teste l’apport du modèle de régression Hypothèses H0 : β1 = . . . = βp = 0 contre H1 : ∃j : βj 6= 0 Statistique de test On décompose la variance de Y en ||Y − Ȳ||22 = ||Ŷ − Ȳ||22 + ||Y − Ŷ||22 | {z } | {z } | {z } SST Source Régression Erreur Total Somme des carrés SSReg SSR SST degrés de liberté p n−p−1 n−1 SSReg SSR carré moyen MSReg = SSReg/p MSR = SSR/(n − p − 1) F F = MSReg MSR Décision on rejette H0 (la régression est valide) si F > fp,n−p−1,1−α Julien JACQUES (Polytech’Lille) Statistiques de base 37 / 48 Analyse de variance de la régression SST variance totale Julien JACQUES (Polytech’Lille) SSReg variance expliquée Statistiques de base SSR variance résiduelle 38 / 48 Coefficient de détermination Coefficient de détermination Le coefficient de détermination R 2 : R2 = SSReg SST est un indicateur de la qualité du modèle de régression. Propriétés : R 2 ∈ [0, 1] dans le cas de la régression simple : R 2 = ρ2XY plus le nombre de variables est grand, plus R 2 est grand Julien JACQUES (Polytech’Lille) Statistiques de base 39 / 48 Coefficient de détermination ajusté Coefficient de détermination ajusté 2 : Le coefficient de détermination ajusté Radj 2 = Radj (n − 1)R 2 − d n−d −1 est un indicateur de la qualité du modèle de régression, prenant en compte la complexité du modèle (nombre de variables). Propriétés : 2 ∈ [0, 1] Radj 2 est grand, meilleure est la régression plus Radj Julien JACQUES (Polytech’Lille) Statistiques de base 40 / 48 Tests de la nullité des paramètres du modèle On peut également tester l’apport de chaque variable dans le modèle Hypothèses H0 : βj = 0 contre H1 : βj 6= 0 Statistique de test T = β̂j −βj σβ̂ j ∼H0 tn−p−1 Décision on rejette H0 (et donc on enlève la variable du modèle) si |t| > tn−1,1− α2 . Julien JACQUES (Polytech’Lille) Statistiques de base 41 / 48 Plan 1 Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 42 / 48 Prédiction Pour une valeur x ∗ = (1, x1∗ , . . . , xp∗ )′ de X , la prévision de Y sera donnée par ŷ ∗ = x ∗ ′ β̂. Un intervalle de confiance de niveau 1 − α pour la valeur y ∗ sera construit à partir de cette prévision ponctuelle : q ∗′ x β̂ ± tn−p−1,1−α/2 σ̂ 1 + x ∗′ (X′ X)−1 x ∗ . Julien JACQUES (Polytech’Lille) Statistiques de base (3) (4) 43 / 48 Plan 1 Tests d’hypothèses Principe d’un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d’observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 44 / 48 Détection d’observations atypiques Effet levier L’effet levier hi mesure l’impact de Yi dans l’estimation Ŷi hi = 1 (Xi − X̄ )2 . + Pn 2 n j=1 (Xj − X̄ ) Cet impact est directement lié à l’éloignement de l’observation Xi à la moyenne des observations X̄ . effet levier hi grand ⇒ observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 45 / 48 Détection d’observations atypiques Résidus ǫi = Ŷi − Yi Résidus normalisés/studentisés ri = Sǫ(i) ǫi √ 1−hi où Sǫ(i) = n−2 n−3 Sǫ − ǫ2i 1 n−3 1−hi |ri | > 2 ⇒ observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 46 / 48 Détection d’observations atypiques effet levier ⇒ éloignement d’une observation à la moyenne résidus normalisés ⇒ éloignement observation / prédiction La distance de Cook synthétisant ces deux informations. Distance de Cook Di = Pn j=1 (Ŷj(i) − 2Sǫ2 Ŷj )2 = hi r2 2(1 − hi ) i où Ŷj(i) : estimation de Yj obtenue sans utiliser (Xi , Yi ). Di > 1 ⇒ observations atypiques Julien JACQUES (Polytech’Lille) Statistiques de base 47 / 48 Régression linéaire avec R L’analyse 1 charger les données : >data=read.table(’filename.dat’,header=TRUE) 2 estimer le modèle : >modele=lm(y ∼ .,data=data) 3 tester la normalité des résidus : >shapiro.test(modele$residuals) 4 vérifier graphiquement l’homoscédasticité et la normalité des résidus, la présence d’individus atypiques ... : plot(modele) 5 tester l’auto-corrélation des résidus (package lmtest) : >dwtest(modele) 6 analyser la qualité du modèle et l’apport de chaque variable : >summary(modele) Julien JACQUES (Polytech’Lille) Statistiques de base 48 / 48