Statistique Numérique et Analyse des Données

Téléchargement

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Statistique Numérique et Analyse des Données

Séance 1: Statistique Descriptive

Arnak DALALYAN

Ecole des Ponts ParisTech

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Quelques Informations

Qui suis je ?

Arnak Dalalyan, chercheur en Statistique

E-mail : [email protected]

Page web du module :

certis.enpc.fr/~dalalyan/StatNum.html

Organisation du cours

8 séances de 2h de cours/exercices.

4 séances de 2h sur machine (TP), en utilisant le logiciel R.

1 examen ﬁnal (2h).

Evaluation : la note ﬁnale (NF) est calculée par la formule :

NF = (9×CR +9×EF +2×NP)/20.

CR : note moyenne des comptes-rendus des TP.

EF : note de l’examen ﬁnal.

NP : note de participation (devoir maison, participation aux TP,...).

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Statistique : Motivations

Les statistiques sont utilisées dans des domaines très

variés comme :

en géophysique, pour les prévisions météorologiques, la

climatologie, la pollution, etc ;

en démographie : le recensement permet de faire une photographie

à un instant donné d’une population et permettra par la suite des

sondages dans des échantillons représentatifs ;

en sciences économiques et sociales, et en économétrie : l’étude du

comportement d’un groupe de population ou d’un secteur

économique s’appuie sur des statistiques ;

en marketing : le sondage d’opinion devient un outil pour la décision

ou l’investissement ;

en métrologie, pour tout ce qui concerne les systèmes de mesure et

les mesures elles-mêmes ;

en écologie (étude des communautés végétales et des

écosystèmes)

Au jour d’aujourd’hui, les connaissances statistiques sont

indispensables pour un ingénieur, indépendamment de la

spécialisation choisie !

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Statistique : qu’est-ce que c’est ?

La Statistique est une science qui comprend la collecte,

l’analyse, l’interprétation de données ainsi que la présentation de

ces ressources aﬁn de les rendre compréhensibles de tous.

collecte de données plan d’expérience ;

interprétation et présentation des données Statistique

Descriptive ;

analyse des données et aide à la décision Statistique

Inférentielle ;

L’objectif de la Statistique en tant que discipline mathématique est

d’explorer les «propriétés fréquentielles» d’un jeu de données.

«propriétés fréquentielles» : les propriétés qui restent invariantes

par toute transformation des données (par exemple, la permutation)

qui ne modiﬁe pas la fréquence des résultats.

La Statistique est une science s’appuyant sur les probabilités !

Pour ceux qui ont des lacunes en probabilités, un cours de remise à

niveau a été proposé, dont les slides sont disponibles en ligne.

Vous pouvez également consulter les chapitres 1-6 du polycopié de

la 1ère année

cermics.enpc.fr/~jourdain/probastat/poly.pdf

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Statistique Descriptive

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Série Numérique

On a à notre disposition nvaleurs réelles - notées x1,...,xn-

constituant les résultats d’une certaine expérience répétée nfois.

source : sondages, expérience scientiﬁques, enregistrements

historiques ;

problème : données volumineuses difﬁcile à interpréter ;

objectif : résumer et trouver des outils de visualisation.

On dit que x1,...,xnsont les valeurs d’une variable (statistique)

observées sur nindividus.

Une variable statistique est dite discrète si le nombre de valeurs

prises par cette variable est petit devant n.

Exemple : on lance 100 fois un dé à 6 faces.

nombre d’observations : 100 ; nombre de valeurs prises : 6. La

variable est donc discrète.

Une variable qui n’est pas discrète est dite continue.

Exemple : Dans le but d’étudier les taux de contamination des sols

par la substance toxique PCB (biphenil polychlorinaté), 26

échantillons de sols ont été prélevés. Le taux de PCB contenus

dans ces échantillons (mesurés en 10−4g par kg de sol) sont :

3,5 1 1,6 12 8,1 5,3 23 8,2 1,8 9,8 1,5 9,7

9 15 24 11 107 18 29 49 94 12 16 22

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Histogramme d’une série numérique

Variable discrète

La façon la plus répendue de représenter la répartition d’une série

statistique est basée sur la notion de l’histogramme.

Pour une variable discrète, on déﬁnit l’histogramme comme la

fonction h:R→Nqui à chaque x∈Rassocie le nombre

d’éléments dans la série x1,...,xnégaux à x.

Exemple : on lance 100 fois un dé à

6 faces.

On obtient l’histogramme :

Histogram of x

Frequency

123456

0 5 10 15 20

Deux déﬁnitions coexistent :

h(x) =











i=1

1l(xi=x),effectifs

i=1

1l(xi=x),fréquences

Sur les appareils photo numériques, on voit souvent afﬁché

l’histogramme des couleurs.

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Histogramme d’une série numérique

Variable continue

Pour une variable continue, on on commence par choisir une

partition de Ren un nombre ﬁni d’intervalles : I0,I1,...,Ik.

On dénombre ensuite le nombre d’observations dans chacun des

intervalles : nj=

i=1

1l(xi∈Ij).

On déﬁnit l’histogramme h(x)comme une fonction constante par

morceaux donnée par :

h(x) = nj

n|Ij|,∀x∈Ij.

Exemple : Dans le but d’étudier les

taux de contamination des sols par la

substance toxique PCB (biphenil po-

lychlorinaté), 26 échantillons de sols

ont été prélevés. Le taux de PCB

contenus dans ces échantillons (me-

surés en 10−4g par kg de sol) sont :

3,5 1 . . . 1.5 9,7

9 15 . . . 16 22

Histogram of a

Density

0 20 40 60 80 100

0.00 0.01 0.02 0.03 0.04 0.05

Histogram of a

Density

0 20 40 60 80 100 120

0.00 0.01 0.02 0.03 0.04 0.05

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Fonction de répartition empirique

Une représentation alternative des fréquences des valeurs

contenues dans une série numérique est la fonction de

répartition, appelée également histogramme cumulé.

Pour un x∈R, la valeur en xde la fonction de répartition d’une

série numérique x1,...,xnest la proportion des éléments de la

série inférieurs ou égaux à x:ˆ

Fn(x) = 1

i=1

1l(xi≤x)

L’avantage de la fonction de répartition, comparé à

l’histogramme, est que sa déﬁnition est identique dans le cas

d’une variable discrète et dans le cas d’une variable continue.

Dans les deux exemples précédents :

01234567

0.0 0.2 0.4 0.6 0.8 1.0

fonction de réparition empirique

Fn(x)

●

0 20 40 60 80 100 120

0.0 0.2 0.4 0.6 0.8 1.0

fonction de réparition empirique

Fn(x)

●

●●●●

●

●●

●●●

●

●●●●●

Arnak Dalalyan

Intro

Quelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique Descriptive

Série numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

Meilleure vue des FdR

01234567

0.0 0.2 0.4 0.6 0.8 1.0

fn de réparition empirique

Fn(x)

●

0 20 40 60 80 100 120

0.0 0.2 0.4 0.6 0.8 1.0

fn de réparition empirique

Fn(x)

●

●●●●

●

●●

●●●

●

●●●●●

Histogram of x

Density

123456

0.00 0.10 0.20

Histogram of a

Density

0 20 40 60 80 100

0.00 0.02 0.04

1 / 13 100%

Documents connexes

Introduction au Modèle Linéaire

to get the file

BTS-CPI1 C- STATISTIQUE Cours 1, C1

nature d`un document

1èreS4 DEVOIR DE PHYSIQUE LUNDI 29 SEPTEMBRE 2014 I

La planète Terre. Les êtres vivants dans leur environnement. 1 La

Initiation à la régression linéaire simple avec R

STATISTIQUES : AJUSTEMENT D`UN NUAGE DE POINTS

I. Présentation 1. Définition Déf : On considère une population sur

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Statistique Numérique et Analyse des Données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Statistique Numérique et Analyse des Données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib