Analyse de données Analyse de données Licence Pro ”Amélioration Végétale” Marc Bailly-Bechet Université Claude Bernard Lyon I – France [email protected] 1 [email protected] Analyse de données Analyse de données Des stats pour faire quoi ? Table des matières 2 1 Des stats pour faire quoi ? 2 Variables aléatoires et lois de probabilité 3 Statistiques descriptives, estimation et intervalles de confiance 4 Tests de comparaison de moyennes et de proportions [email protected] Analyse de données Analyse de données Des stats pour faire quoi ? Organisation des enseignements d’analyse de données 3 cours ”théoriques” de 1h30. 16h de TP sur ordinateur. 3 [email protected] Analyse de données Analyse de données Des stats pour faire quoi ? Pourquoi faire des statistiques en biologie ? Variabilité : Une expérience en biologie donne rarement un résultat tranché ou parfaitement reproductible. Quantité : Les nouvelles technologies biologiques permettent de recueillir des quantités pharamineuses de données. 4 [email protected] Analyse de données Analyse de données Des stats pour faire quoi ? Les statistiques vues de loin Population p, µ, σ 2 ⇒ Échantillon n individus tirés aléatoirement ⇑ Tests, estimation Statistique inférentielle 5 ⇓ ⇐ [email protected] k n , x̄, s 2 Statistiques descriptives Analyse de données Analyse de données Variables aléatoires et lois de probabilité Table des matières 6 1 Des stats pour faire quoi ? 2 Variables aléatoires et lois de probabilité 3 Statistiques descriptives, estimation et intervalles de confiance 4 Tests de comparaison de moyennes et de proportions [email protected] Analyse de données Analyse de données Variables aléatoires et lois de probabilité Loi binomiale La loi binomiale est la loi de probabilité décrivant le nombre de réussites parmi un ensemble de tirages aléatoires et indépendants. Elle se note B(n, p) avec n le nombre de tirages et p la probabilité de réussite à chaque tirage. n=100 ● ● ● ● Probabilité 0.3 ● ● 0.2 ● ● ● ● ● 0.1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 0 ● ● 5 ● ● ● ● 10 ● ● ● 20 25 30 Nombre de succès 7 p = 0.01 p = 0.05 p = 0.1 p = 0.25 [email protected] Analyse de données 40 Analyse de données Variables aléatoires et lois de probabilité Loi de Poisson La loi de Poisson (de Siméon Denis Poisson, 1781-1840) est la loi de probabilité décrivant le nombre d’évenements aléatoires et indépendants arrivant dans le même intervalle de temps ou d’espace. Elle se note P(λ) avec λ l’espérance et la variance de la loi. ● ● ● ● 0.3 Probabilité ● ● ● ● 0.2 ● ● ● ● ● ● ● 0.1 ● ● ● ● ● ● 0 1 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 ● ● ● ● ● ● 5 ● ● ● ● ● ● ● ● ● ● ● 10 ● 15 Nombre d'évenements 8 λ=1 λ=2 λ=5 λ = 10 [email protected] Analyse de données ● ● ● ● ● ● ● ● ● 20 Analyse de données Variables aléatoires et lois de probabilité Probabilité absolue Pas de 5 cm 0.4 0.3 0.3 a<P(x)<b a<P(x)<b Pas de 10 cm 0.4 0.2 0.1 0 0.2 0.1 0 120 160 200 120 Taille Pas de 0.1 cm 0.4 0.4 0.3 0.3 a<P(x)<b a<P(x)<b 200 Taille Pas de 1 cm 0.2 0.1 0 0.2 0.1 0 120 9 160 160 200 [email protected] Taille 120 160 Analyse de données Taille 200 Analyse de données Variables aléatoires et lois de probabilité Densité de probabilité Pas de 5 cm 0.04 0.03 0.03 Densité Densité Pas de 10 cm 0.04 0.02 0.01 0.00 0.02 0.01 0.00 120 160 200 120 Taille Limite continue 0.04 0.04 0.03 0.03 Densité Densité 200 Taille Pas de 1 cm 0.02 0.01 0.00 0.02 0.01 0.00 120 10 160 160 200 [email protected] Taille 120 160 Analyse de données Taille 200 Analyse de données Variables aléatoires et lois de probabilité Loi normale La loi normale est la loi de probabilité des variables aléatoires continues dépendantes d’un grand nombre de causes indépendantes et additives. Elle se note N (µ, σ) avec µ l’espérance de la loi et σ l’écart-type. µ=5 Densité de probabilité 0.4 σ=1 σ=2 σ=5 σ = 20 0.3 0.2 0.1 0.0 −2 0 2 4 6 8 Valeur obtenue 11 [email protected] Analyse de données 10 12 Analyse de données Statistiques descriptives, estimation et intervalles de confiance Table des matières 12 1 Des stats pour faire quoi ? 2 Variables aléatoires et lois de probabilité 3 Statistiques descriptives, estimation et intervalles de confiance 4 Tests de comparaison de moyennes et de proportions [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Variable discrète Le balanin est un parasite de la châtaigne. Nb. de parasites xi Nombre de fruits ni ayant xi parasites Fréquence fi Fréquence cumulée Pi j=1 fj 13 0 1043 1 172 2 78 3 15 4 10 5 7 6 et plus 4 0.785 0.785 0.129 0.914 0.059 0.973 0.011 0.984 0.007 0.991 0.005 0.996 0.004 1 [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Variable continue On observe la concentration en glucose dans plusieurs mangues. Concentration (g.L−1 ) X [135, 150[ [150, 165[ [165, 180[ [180, 195[ [195, 210[ [210, 225[ 14 Nb de mangues nj 7 10 23 14 5 3 [email protected] Fréquence ni N 0.113 0.161 0.371 0.226 0.080 0.049 Analyse de données Fréquence cumulée Pi j=1 fj 0.113 0.274 0.645 0.871 0.951 1 Analyse de données Statistiques descriptives, estimation et intervalles de confiance Moyenne observée sur des données groupées On veut la moyenne du taux de glucose dans le mélange final de nos 4 types de mangues : Concentration (g.L−1 ) X [135, 165[ [165, 180[ [180, 195[ [195, 225[ x̄ = 15 Moyenne xj? 150 172.5 187.5 210 Nb de mangues nj 17 23 14 8 10822.5 1 (150 × 17 + 172.5 × 23 + . . .) = = 174.56 g.L−1 62 62 [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Différence entre médiane et moyenne Revenu mensuel moyen des ménages en France : 2474 euros Revenu mensuel médian des ménages en France : 1514 euros 16 [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Différence entre médiane et moyenne Revenu mensuel moyen des ménages en France : 2474 euros Revenu mensuel médian des ménages en France : 1514 euros 0.00020 0.00010 0.00000 Densité de probabilité Moyenne Médiane 0 2000 4000 6000 8000 Revenu mensuel des ménages 16 [email protected] Analyse de données 10000 Analyse de données Statistiques descriptives, estimation et intervalles de confiance Les mangues sont à la mode On observe la concentration en glucose dans plusieurs mangues. Nombre de mangues 20 15 10 5 0 140 160 180 200 Concentration en glucose (g/L) 17 [email protected] Analyse de données 220 Analyse de données Statistiques descriptives, estimation et intervalles de confiance Variance et écart-type observés, données groupées La variance sur des données groupées se calcule ainsi : Concentration (g.L−1 ) X [135, 165[ [165, 180[ [180, 195[ [195, 225[ Moyenne xj? 150 172.5 187.5 210 Nb de mangues nj 17 23 14 8 x̄ = 174.56 g.L−1 1 s2 = 17 × 1502 + 23 × 172.52 + . . . − 174.562 62 = 365.60 √ s = 365.60 = 19.12 g.L−1 18 [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance 4 3 0 0.0 1 2 Fréquence 0.8 0.4 Fréquence 5 Loi de la moyenne de n v.a., n grand 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.8 1.0 n=20 30 10 20 Fréquence 8 10 6 4 0 0 2 Fréquence 40 n=1 0.0 0.2 0.4 0.6 0.8 1.0 n=100 19 [email protected] 0.0 0.2 0.4 0.6 n=1000 Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Distribution d’échantillonnage d’une moyenne observée Densité de probabilité 0.4 0.3 0.2 0.1 0.0 µ Moyenne observée de l'échantillon 20 [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale P(µ − Cα < x̄ < µ + Cα ) = 1 − α Densité de probabilité 0.4 0.3 0.2 0.1 α 2 0.0 µ − Cα α 2 µ µ + Cα Moyenne observée de l'échantillon 21 [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale, α = 0.20 P(µ − C0.20 < x̄ < µ + C0.20 ) = 0.80 Densité de probabilité 0.4 0.3 0.2 0.1 0.1 0.0 0.1 µ − C0.2 µ µ + C0.2 Moyenne observée de l'échantillon 22 [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale, α = 0.05 P(µ − C0.05 < x̄ < µ + C0.05 ) = 0.95 Densité de probabilité 0.4 0.3 0.2 0.1 0.025 0.0 µ − C0.05 0.025 µ µ + C0.05 Moyenne observée de l'échantillon 23 [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale, α = 0.001 P(µ − C0.001 < x̄ < µ + C0.001 ) = 0.999 Densité de probabilité 0.4 0.3 0.2 0.1 5e−04 0.0 5e−04 µ − C0.001 µ µ + C0.001 Moyenne observée de l'échantillon 24 [email protected] Analyse de données Analyse de données Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale centrée réduite Densité de probabilité 0.4 0.3 0.2 0.1 0.0 −3.29 −1.96−1.29 0 1.29 1.96 3.29 − ε0.001 − ε0.05 − ε0.2 0 ε0.2 ε0.05 ε0.001 x−µ z= σ2 n 25 [email protected] Analyse de données Analyse de données Tests de comparaison de moyennes et de proportions Table des matières 26 1 Des stats pour faire quoi ? 2 Variables aléatoires et lois de probabilité 3 Statistiques descriptives, estimation et intervalles de confiance 4 Tests de comparaison de moyennes et de proportions [email protected] Analyse de données Analyse de données Tests de comparaison de moyennes et de proportions Distribution d’échantillonnage et moyenne observée Densité de probabilité 0.4 0.3 0.2 0.1 0.0 µ0 27 [email protected] x Analyse de données Analyse de données Tests de comparaison de moyennes et de proportions Distribution d’échantillonnage et moyenne observée Risque α Densité de probabilité 0.4 0.20 0.05 0.001 0.3 0.2 0.1 0.0 µ0 28 [email protected] x Analyse de données Analyse de données Tests de comparaison de moyennes et de proportions Risque de deuxième espèce H0 Densité de probabilité 0.4 H1 0.3 0.2 0.1 0.0 −4 −2 0 x−µ 2 4 σ2 n 29 [email protected] Analyse de données 6 Analyse de données Tests de comparaison de moyennes et de proportions Risque de deuxième espèce H0 Densité de probabilité 0.4 H1 0.3 0.2 0.1 α 2 α 2 0.0 −4 −2 0 x−µ 2 4 σ2 n 30 [email protected] Analyse de données 6 Analyse de données Tests de comparaison de moyennes et de proportions Risque de deuxième espèce H0 Densité de probabilité 0.4 H1 0.3 0.2 0.1 α 2 α 2 β 0.0 −4 −2 0 x−µ 2 4 σ2 n 31 [email protected] Analyse de données 6 Analyse de données Tests de comparaison de moyennes et de proportions Test unilatéral, α = 5% Densité de probabilité H1 : µ 6= µ0 H1 : µ > µ0 0.4 0.4 0.3 0.3 0.2 0.2 α 2 0.1 α 2 0.1 0.0 0.0 −4 −2 0 2 4 ε0.05 = 1.96 32 α [email protected] −4 −2 0 2 ε0.1 = 1.645 Analyse de données 4