Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
1
Statistique Numérique et Analyse des Données
Séance 1: Statistique Descriptive
Arnak DALALYAN
Ecole des Ponts ParisTech
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
2
Quelques Informations
Qui suis je ?
Arnak Dalalyan, chercheur en Statistique
Page web du module :
certis.enpc.fr/~dalalyan/StatNum.html
Organisation du cours
8 séances de 2h de cours/exercices.
4 séances de 2h sur machine (TP), en utilisant le logiciel R.
1 examen final (2h).
Evaluation : la note finale (NF) est calculée par la formule :
NF = (9×CR +9×EF +2×NP)/20.
CR : note moyenne des comptes-rendus des TP.
EF : note de l’examen final.
NP : note de participation (devoir maison, participation aux TP,...).
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
3
Statistique : Motivations
Les statistiques sont utilisées dans des domaines très
variés comme :
en géophysique, pour les prévisions météorologiques, la
climatologie, la pollution, etc ;
en démographie : le recensement permet de faire une photographie
à un instant donné d’une population et permettra par la suite des
sondages dans des échantillons représentatifs ;
en sciences économiques et sociales, et en économétrie : l’étude du
comportement d’un groupe de population ou d’un secteur
économique s’appuie sur des statistiques ;
en marketing : le sondage d’opinion devient un outil pour la décision
ou l’investissement ;
en métrologie, pour tout ce qui concerne les systèmes de mesure et
les mesures elles-mêmes ;
en écologie (étude des communautés végétales et des
écosystèmes)
Au jour d’aujourd’hui, les connaissances statistiques sont
indispensables pour un ingénieur, indépendamment de la
spécialisation choisie !
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
4
Statistique : qu’est-ce que c’est ?
La Statistique est une science qui comprend la collecte,
l’analyse, l’interprétation de données ainsi que la présentation de
ces ressources afin de les rendre compréhensibles de tous.
collecte de données plan d’expérience ;
interprétation et présentation des données Statistique
Descriptive ;
analyse des données et aide à la décision Statistique
Inférentielle ;
L’objectif de la Statistique en tant que discipline mathématique est
d’explorer les «propriétés fréquentielles» d’un jeu de données.
«propriétés fréquentielles» : les propriétés qui restent invariantes
par toute transformation des données (par exemple, la permutation)
qui ne modifie pas la fréquence des résultats.
La Statistique est une science s’appuyant sur les probabilités !
Pour ceux qui ont des lacunes en probabilités, un cours de remise à
niveau a été proposé, dont les slides sont disponibles en ligne.
Vous pouvez également consulter les chapitres 1-6 du polycopié de
la 1ère année
cermics.enpc.fr/~jourdain/probastat/poly.pdf
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
5
Statistique Descriptive
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
6
Série Numérique
On a à notre disposition nvaleurs réelles - notées x1,...,xn-
constituant les résultats d’une certaine expérience répétée nfois.
source : sondages, expérience scientifiques, enregistrements
historiques ;
problème : données volumineuses difficile à interpréter ;
objectif : résumer et trouver des outils de visualisation.
On dit que x1,...,xnsont les valeurs d’une variable (statistique)
observées sur nindividus.
Une variable statistique est dite discrète si le nombre de valeurs
prises par cette variable est petit devant n.
Exemple : on lance 100 fois un dé à 6 faces.
nombre d’observations : 100 ; nombre de valeurs prises : 6. La
variable est donc discrète.
Une variable qui n’est pas discrète est dite continue.
Exemple : Dans le but d’étudier les taux de contamination des sols
par la substance toxique PCB (biphenil polychlorinaté), 26
échantillons de sols ont été prélevés. Le taux de PCB contenus
dans ces échantillons (mesurés en 104g par kg de sol) sont :
3,5 1 1,6 12 8,1 5,3 23 8,2 1,8 9,8 1,5 9,7
9 15 24 11 107 18 29 49 94 12 16 22
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
7
Histogramme d’une série numérique
Variable discrète
La façon la plus répendue de représenter la répartition d’une série
statistique est basée sur la notion de l’histogramme.
Pour une variable discrète, on définit l’histogramme comme la
fonction h:RNqui à chaque xRassocie le nombre
d’éléments dans la série x1,...,xnégaux à x.
Exemple : on lance 100 fois un dé à
6 faces.
On obtient l’histogramme :
Histogram of x
x
Frequency
123456
0 5 10 15 20
Deux définitions coexistent :
h(x) =
n
X
i=1
1l(xi=x),effectifs
1
n
n
X
i=1
1l(xi=x),fréquences
Sur les appareils photo numériques, on voit souvent affiché
l’histogramme des couleurs.
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
8
Histogramme d’une série numérique
Variable continue
Pour une variable continue, on on commence par choisir une
partition de Ren un nombre fini d’intervalles : I0,I1,...,Ik.
On dénombre ensuite le nombre d’observations dans chacun des
intervalles : nj=
n
X
i=1
1l(xiIj).
On définit l’histogramme h(x)comme une fonction constante par
morceaux donnée par :
h(x) = nj
n|Ij|,xIj.
Exemple : Dans le but d’étudier les
taux de contamination des sols par la
substance toxique PCB (biphenil po-
lychlorinaté), 26 échantillons de sols
ont été prélevés. Le taux de PCB
contenus dans ces échantillons (me-
surés en 104g par kg de sol) sont :
3,5 1 . . . 1.5 9,7
9 15 . . . 16 22
Histogram of a
a
Density
0 20 40 60 80 100
0.00 0.01 0.02 0.03 0.04 0.05
Histogram of a
a
Density
0 20 40 60 80 100 120
0.00 0.01 0.02 0.03 0.04 0.05
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
9
Fonction de répartition empirique
Une représentation alternative des fréquences des valeurs
contenues dans une série numérique est la fonction de
répartition, appelée également histogramme cumulé.
Pour un xR, la valeur en xde la fonction de répartition d’une
série numérique x1,...,xnest la proportion des éléments de la
série inférieurs ou égaux à x:ˆ
Fn(x) = 1
n
n
X
i=1
1l(xix)
L’avantage de la fonction de répartition, comparé à
l’histogramme, est que sa définition est identique dans le cas
d’une variable discrète et dans le cas d’une variable continue.
Dans les deux exemples précédents :
01234567
0.0 0.2 0.4 0.6 0.8 1.0
fonction de réparition empirique
Fn(x)
0 20 40 60 80 100 120
0.0 0.2 0.4 0.6 0.8 1.0
fonction de réparition empirique
Fn(x)
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
10
Meilleure vue des FdR
01234567
0.0 0.2 0.4 0.6 0.8 1.0
fn de réparition empirique
Fn(x)
0 20 40 60 80 100 120
0.0 0.2 0.4 0.6 0.8 1.0
fn de réparition empirique
Fn(x)
Histogram of x
x
Density
123456
0.00 0.10 0.20
Histogram of a
a
Density
0 20 40 60 80 100
0.00 0.02 0.04
1 / 13 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !