Analyse de données et classification bayésienne

Téléchargement

Parcours OMIS - 3A - École Centrale Marseille

Module Informatique Décisionelle

Analyse de données

et classiﬁcation bayésienne

Stéphane DERRODE

stephane.derrode@centrale-marseille.fr

Version 2.1 - Novembre 2013

Table des matières

1 Les données 4

1.1 Espace de représentation des données ................................ 4

1.2 Espace engendré par les variables .................................. 4

1.2.1 Variables numériques ..................................... 5

1.2.2 Variables ordinales et nominales .............................. 5

1.2.3 Espace des modèles ..................................... 6

1.3 Distances et similitudes dans les espaces de représentation .................... 6

1.3.1 Variables continues ...................................... 7

1.3.2 Variables booléenne (présence / absence) ......................... 7

2 Variables à 1 ou 2 dimensions 9

2.1 Description d’une variable ...................................... 9

2.1.1 Distribution .......................................... 9

2.1.2 Valeurs centrales ....................................... 10

2.1.3 Paramètres de dispersion .................................. 11

2.1.4 Boîte à moustaches ...................................... 12

2.2 Description de deux variables .................................... 12

2.2.1 Nuage de points et régression linéaire ........................... 12

2.2.2 Corrélation linéaire et axe principal ............................ 14

3 Analyse en composantes principales 17

3.1 Exemple avec les mains ....................................... 17

3.2 Principe de la méthode (sans les mains) .............................. 17

3.3 Reformulation des données ...................................... 19

3.3.1 Matrice de données ...................................... 19

3.3.2 Matrices de description ................................... 19

3.3.3 Réduction des données .................................... 20

3.4 Recherche de sous-espaces optimaux ................................ 20

3.5 Inertie ................................................. 21

3.6 Description du nuage des individus ................................. 22

4 Décision bayésienne 24

4.1 Introduction et motivations ..................................... 24

4.2 Position du problème ......................................... 26

4.3 Stratégie bayésienne ......................................... 26

4.4 Exemple : cas gaussien ........................................ 29

Chapitre 1

Les données

Fortement inspiré du cours de F. Brucker, Analyse des données, 2007.

1.1 Espace de représentation des données

Ensemble ﬁni Xd’objets noté x1,x2, . . . , x,y,z(taille N).

Pour analyser les objets dans X, il faut disposer d’informations permettant de les comparer ou de les

caractériser à l’aide de paramètres ou de descripteurs.

On plonge ainsi les objets dans un espace de représentation, engendré par les variables issues des descripteurs.

Les variables peuvent être numériques, ordinales ou nominales.

On parlera souvent d’individu pour caractériser les objets de Xet de caractères pour les variables associées.

Variable

?numérique : discrète (crédit sur un compte en centimes) ou continue (poids, taille).

?ordinale : ne retient que des comparaisons entre des valeurs (Je préfère x à y,x est plus intéressant

que y. . . ).

?nominale : ensemble de valeurs non comparables (catégorie socio-professionnelle, couleur, apparte-

nance politique). Comme cas particulier : les variables binaires (présen ce/absence d’un caractère ou

1/2 sexe à la sécurité sociale)

1.2 Espace engendré par les variables

Supposons que nos Nobjets soient décrits par un ensemble de pvariables. L’espace de représentation qui

leur sera associé sera le produit cartésien des ensembles engendrés par chaque variable. On a ainsi =Rp

lorsque les variables sont continues ; tandis dans dans les autres cas on peut poser =Np. Les variables

booléennes correspondant au cas particulier {0,1}p.

1.2.1 Variables numériques

L’espace euclidien Rpest l’espace de représentation de l’analyse (géométrique) des données. Chaque objet

xi∈Xest ici codé par un p-uplet xi=x1

i, x2

i, . . . , xp

idans lequel xj

iest la valeur que prend la j-ième

variable (ou descripteur) sur l’objet xi. Le tableau ci-après montre un exemple d’objets (les lignes) décrites

par des données numériques (les colonnes).

En analyse des données, la démarche diﬀère de celle adoptée en statistique inférentielle où l’ensemble des

objets est souvent vu comme un échantillon d’une population plus vaste et l’on cherche à trouver des infor-

mations sur cette population à partir de l’échantillon considéré. Ici, Xest la population et les valeurs prises

par chaque variable constituent une distribution observée à partir de laquelle on peut calculer des paramètres

(la moyenne, la variance, . . . ), expliquer les valeurs prises par certaines variables à partir de valeurs prises

par d’autres (régressions), ou encore structurer les données (analyses factorielles).

1.2.2 Variables ordinales et nominales

Nous ne parlerons que très peu de ce genre de données par la suite, et nous nous restreindrons aux variables

booléennes, dont le tableau suivant donne un exemple.

?A : l’animal pond-t-il des oeufs ?

?B : présence de plumes ?

?C : présence d’écailles ?

?D : présence de dents ?

?E : l’animal vole-t-il ?

?F : l’animal nage-t-il ?

?G : l’animal respire-t-il dans l’air (1) ou dans l’eau (0) ?

Table 1.1 – tableau booléen

A B C D E F G

Autruche 1 1 0 0 0 0 1

Canari 1 1 0 0 1 0 1

Canard 1 1 0 0 1 1 1

Requin 1 0 0 1 0 1 0

Saumon 1 0 1 0 0 1 0

Grenouille 1 0 0 0 0 1 1

Crocodile 1 0 0 1 0 1 1

Barracuda 1 0 1 1 0 1 0

Ce genre de données peut être représenté en utilisant une terminologie booléenne. Soit Xl’ensemble des N

objets décrits par un ensemble A={A, B, C, . . .}de pattributs ou variables binaires. Chacun, par exemple

A, peut prendre les valeurs a(dite forme directe, codée 1) et ¯a(dite forme indirecte, codée 0). Ceci peut

être ramené à un tableau de valeurs 0 ou 1 avec Nlignes correspondant aux éléments de Xet pcolonnes

correspondant aux attributs.

Le tableau est alors équivalent à la formule Φci-après qui est vériﬁée par les assignations induites par les

lignes :

Φ = ab¯c¯

d¯e¯

fg ∨ab¯c¯

de ¯

fg ∨ab¯c¯

defg ∨a¯

b¯cd¯ef ¯g∨

a¯

bc ¯

d¯ef ¯g∨a¯

b¯c¯

d¯efg ∨a¯

b¯cd¯efg ∨a¯

bcd¯ef ¯g

1 / 31 100%

Documents connexes

to get the file

1èreS4 DEVOIR DE PHYSIQUE LUNDI 29 SEPTEMBRE 2014 I

La planète Terre. Les êtres vivants dans leur environnement. 1 La

I. Présentation 1. Définition Déf : On considère une population sur

Le 24 mai 2011 - 1jour1actu Éruption volcanique en Islande : c`est la

QCM (3x0.75 pts) :Pour chaque question une seule réponse est

nuage d`orage.ppt [Lecture seule]

Texte du contrôle continu 2

Cirrus ou cumulo

L`épreuve vise à apprécier la maîtrise des

La formation du système solaire

Quelques définitions

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Analyse de données et classification bayésienne

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Analyse de données et classification bayésienne

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib