Analyse de données Licence Pro ”Amélioration Végétale”

publicité
Analyse de données
Analyse de données
Licence Pro ”Amélioration Végétale”
Marc Bailly-Bechet
Université Claude Bernard Lyon I – France
[email protected]
1
[email protected]
Analyse de données
Analyse de données
Des stats pour faire quoi ?
Table des matières
2
1
Des stats pour faire quoi ?
2
Variables aléatoires et lois de probabilité
3
Statistiques descriptives, estimation et intervalles de confiance
4
Tests de comparaison de moyennes et de proportions
[email protected]
Analyse de données
Analyse de données
Des stats pour faire quoi ?
Organisation des enseignements d’analyse de données
3 cours ”théoriques” de 1h30.
16h de TP sur ordinateur.
3
[email protected]
Analyse de données
Analyse de données
Des stats pour faire quoi ?
Pourquoi faire des statistiques en biologie ?
Variabilité : Une expérience en biologie donne rarement un
résultat tranché ou parfaitement reproductible.
Quantité : Les nouvelles technologies biologiques permettent
de recueillir des quantités pharamineuses de données.
4
[email protected]
Analyse de données
Analyse de données
Des stats pour faire quoi ?
Les statistiques vues de loin
Population
p, µ, σ 2
⇒
Échantillon
n individus tirés aléatoirement
⇑
Tests, estimation
Statistique inférentielle
5
⇓
⇐
[email protected]
k
n
, x̄, s 2
Statistiques descriptives
Analyse de données
Analyse de données
Variables aléatoires et lois de probabilité
Table des matières
6
1
Des stats pour faire quoi ?
2
Variables aléatoires et lois de probabilité
3
Statistiques descriptives, estimation et intervalles de confiance
4
Tests de comparaison de moyennes et de proportions
[email protected]
Analyse de données
Analyse de données
Variables aléatoires et lois de probabilité
Loi binomiale
La loi binomiale est la loi de probabilité décrivant le nombre de
réussites parmi un ensemble de tirages aléatoires et indépendants.
Elle se note B(n, p) avec n le nombre de tirages et p la probabilité
de réussite à chaque tirage.
n=100
● ●
●
●
Probabilité
0.3
●
●
0.2
●
● ●
●
●
0.1
● ●
●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
●
●
● ● ●
● ●
●
●
● ●
●
●
● ● ● ●
● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ●
●
●
0.0
0
●
●
5
●
●
●
●
10
●
●
●
20
25
30
Nombre de succès
7
p = 0.01
p = 0.05
p = 0.1
p = 0.25
[email protected]
Analyse de données
40
Analyse de données
Variables aléatoires et lois de probabilité
Loi de Poisson
La loi de Poisson (de Siméon Denis Poisson, 1781-1840) est la loi
de probabilité décrivant le nombre d’évenements aléatoires et
indépendants arrivant dans le même intervalle de temps ou
d’espace. Elle se note P(λ) avec λ l’espérance et la variance de la
loi.
●
●
●
●
0.3
Probabilité
●
●
●
●
0.2
●
●
●
●
●
●
●
0.1
●
●
●
●
●
●
0 1 2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.0
●
●
●
●
●
●
5
●
●
●
●
●
●
●
●
●
●
●
10
●
15
Nombre d'évenements
8
λ=1
λ=2
λ=5
λ = 10
[email protected]
Analyse de données
●
●
●
●
●
●
●
●
●
20
Analyse de données
Variables aléatoires et lois de probabilité
Probabilité absolue
Pas de 5 cm
0.4
0.3
0.3
a<P(x)<b
a<P(x)<b
Pas de 10 cm
0.4
0.2
0.1
0
0.2
0.1
0
120
160
200
120
Taille
Pas de 0.1 cm
0.4
0.4
0.3
0.3
a<P(x)<b
a<P(x)<b
200
Taille
Pas de 1 cm
0.2
0.1
0
0.2
0.1
0
120
9
160
160
200
[email protected]
Taille
120
160
Analyse de données Taille
200
Analyse de données
Variables aléatoires et lois de probabilité
Densité de probabilité
Pas de 5 cm
0.04
0.03
0.03
Densité
Densité
Pas de 10 cm
0.04
0.02
0.01
0.00
0.02
0.01
0.00
120
160
200
120
Taille
Limite continue
0.04
0.04
0.03
0.03
Densité
Densité
200
Taille
Pas de 1 cm
0.02
0.01
0.00
0.02
0.01
0.00
120
10
160
160
200
[email protected]
Taille
120
160
Analyse de données Taille
200
Analyse de données
Variables aléatoires et lois de probabilité
Loi normale
La loi normale est la loi de probabilité des variables aléatoires
continues dépendantes d’un grand nombre de causes
indépendantes et additives. Elle se note N (µ, σ) avec µ l’espérance
de la loi et σ l’écart-type.
µ=5
Densité de probabilité
0.4
σ=1
σ=2
σ=5
σ = 20
0.3
0.2
0.1
0.0
−2
0
2
4
6
8
Valeur obtenue
11
[email protected]
Analyse de données
10
12
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Table des matières
12
1
Des stats pour faire quoi ?
2
Variables aléatoires et lois de probabilité
3
Statistiques descriptives, estimation et intervalles de confiance
4
Tests de comparaison de moyennes et de proportions
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Variable discrète
Le balanin est un parasite de la châtaigne.
Nb. de parasites xi
Nombre de fruits ni
ayant xi parasites
Fréquence fi
Fréquence cumulée
Pi
j=1 fj
13
0
1043
1
172
2
78
3
15
4
10
5
7
6 et plus
4
0.785
0.785
0.129
0.914
0.059
0.973
0.011
0.984
0.007
0.991
0.005
0.996
0.004
1
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Variable continue
On observe la concentration en glucose dans plusieurs
mangues.
Concentration (g.L−1 )
X
[135, 150[
[150, 165[
[165, 180[
[180, 195[
[195, 210[
[210, 225[
14
Nb de mangues
nj
7
10
23
14
5
3
[email protected]
Fréquence
ni
N
0.113
0.161
0.371
0.226
0.080
0.049
Analyse de données
Fréquence cumulée
Pi
j=1 fj
0.113
0.274
0.645
0.871
0.951
1
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Moyenne observée sur des données groupées
On veut la moyenne du taux de glucose dans le mélange
final de nos 4 types de mangues :
Concentration (g.L−1 )
X
[135, 165[
[165, 180[
[180, 195[
[195, 225[
x̄ =
15
Moyenne
xj?
150
172.5
187.5
210
Nb de mangues
nj
17
23
14
8
10822.5
1
(150 × 17 + 172.5 × 23 + . . .) =
= 174.56 g.L−1
62
62
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Différence entre médiane et moyenne
Revenu mensuel moyen des ménages en France : 2474 euros
Revenu mensuel médian des ménages en France : 1514 euros
16
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Différence entre médiane et moyenne
Revenu mensuel moyen des ménages en France : 2474 euros
Revenu mensuel médian des ménages en France : 1514 euros
0.00020
0.00010
0.00000
Densité de probabilité
Moyenne
Médiane
0
2000
4000
6000
8000
Revenu mensuel des ménages
16
[email protected]
Analyse de données
10000
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Les mangues sont à la mode
On observe la concentration en glucose dans plusieurs
mangues.
Nombre de mangues
20
15
10
5
0
140
160
180
200
Concentration en glucose (g/L)
17
[email protected]
Analyse de données
220
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Variance et écart-type observés, données groupées
La variance sur des données groupées se calcule ainsi :
Concentration (g.L−1 )
X
[135, 165[
[165, 180[
[180, 195[
[195, 225[
Moyenne
xj?
150
172.5
187.5
210
Nb de mangues
nj
17
23
14
8
x̄ = 174.56 g.L−1
1
s2 =
17 × 1502 + 23 × 172.52 + . . . − 174.562
62
= 365.60
√
s = 365.60 = 19.12 g.L−1
18
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
4
3
0
0.0
1
2
Fréquence
0.8
0.4
Fréquence
5
Loi de la moyenne de n v.a., n grand
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.8
1.0
n=20
30
10
20
Fréquence
8 10
6
4
0
0
2
Fréquence
40
n=1
0.0
0.2
0.4
0.6
0.8
1.0
n=100
19
[email protected]
0.0
0.2
0.4
0.6
n=1000
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Distribution d’échantillonnage d’une moyenne observée
Densité de probabilité
0.4
0.3
0.2
0.1
0.0
µ
Moyenne observée de l'échantillon
20
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale
P(µ − Cα < x̄ < µ + Cα ) = 1 − α
Densité de probabilité
0.4
0.3
0.2
0.1
α 2
0.0
µ − Cα
α 2
µ
µ + Cα
Moyenne observée de l'échantillon
21
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale, α = 0.20
P(µ − C0.20 < x̄ < µ + C0.20 ) = 0.80
Densité de probabilité
0.4
0.3
0.2
0.1
0.1
0.0
0.1
µ − C0.2 µ µ + C0.2
Moyenne observée de l'échantillon
22
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale, α = 0.05
P(µ − C0.05 < x̄ < µ + C0.05 ) = 0.95
Densité de probabilité
0.4
0.3
0.2
0.1
0.025
0.0
µ − C0.05
0.025
µ
µ + C0.05
Moyenne observée de l'échantillon
23
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale, α = 0.001
P(µ − C0.001 < x̄ < µ + C0.001 ) = 0.999
Densité de probabilité
0.4
0.3
0.2
0.1
5e−04
0.0
5e−04
µ − C0.001
µ
µ + C0.001
Moyenne observée de l'échantillon
24
[email protected]
Analyse de données
Analyse de données
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale centrée réduite
Densité de probabilité
0.4
0.3
0.2
0.1
0.0
−3.29 −1.96−1.29 0 1.29 1.96 3.29
− ε0.001 − ε0.05 − ε0.2 0
ε0.2 ε0.05 ε0.001
x−µ
z=
σ2
n
25
[email protected]
Analyse de données
Analyse de données
Tests de comparaison de moyennes et de proportions
Table des matières
26
1
Des stats pour faire quoi ?
2
Variables aléatoires et lois de probabilité
3
Statistiques descriptives, estimation et intervalles de confiance
4
Tests de comparaison de moyennes et de proportions
[email protected]
Analyse de données
Analyse de données
Tests de comparaison de moyennes et de proportions
Distribution d’échantillonnage et moyenne observée
Densité de probabilité
0.4
0.3
0.2
0.1
0.0
µ0
27
[email protected]
x
Analyse de données
Analyse de données
Tests de comparaison de moyennes et de proportions
Distribution d’échantillonnage et moyenne observée
Risque α
Densité de probabilité
0.4
0.20
0.05
0.001
0.3
0.2
0.1
0.0
µ0
28
[email protected]
x
Analyse de données
Analyse de données
Tests de comparaison de moyennes et de proportions
Risque de deuxième espèce
H0
Densité de probabilité
0.4
H1
0.3
0.2
0.1
0.0
−4
−2
0
x−µ
2
4
σ2
n
29
[email protected]
Analyse de données
6
Analyse de données
Tests de comparaison de moyennes et de proportions
Risque de deuxième espèce
H0
Densité de probabilité
0.4
H1
0.3
0.2
0.1
α
2
α
2
0.0
−4
−2
0
x−µ
2
4
σ2
n
30
[email protected]
Analyse de données
6
Analyse de données
Tests de comparaison de moyennes et de proportions
Risque de deuxième espèce
H0
Densité de probabilité
0.4
H1
0.3
0.2
0.1
α
2
α
2
β
0.0
−4
−2
0
x−µ
2
4
σ2
n
31
[email protected]
Analyse de données
6
Analyse de données
Tests de comparaison de moyennes et de proportions
Test unilatéral, α = 5%
Densité de probabilité
H1 : µ 6= µ0
H1 : µ > µ0
0.4
0.4
0.3
0.3
0.2
0.2
α
2
0.1
α
2
0.1
0.0
0.0
−4
−2
0
2
4
ε0.05 = 1.96
32
α
[email protected]
−4
−2
0
2
ε0.1 = 1.645
Analyse de données
4
Téléchargement