Nos 8èmes Journées d’Eté vous orent la possibilité de construire votre
programme personnalisé de formaon en Stasques et Data Mining d’une
durée de 1 à 5 jours.
Cee année, les thémaques proposées sont :
Explorer
Apprenssage non supervisé
Modéliser et Prévoir
Apprenssage supervisé
29 juin
Panorama des Méthodes Stasques d’Analyse
de Données (J11)
Découvrir un panorama complet des méthodes
stasques ulisées en analyse des données.
Savoir quelle méthode uliser en foncon des
données disponibles et des objecfs à aeindre.
Introducon au Data Mining : Extraire des
connaissances des données, souvent
disponibles en grande quanté mais peu
exploitées (J12)
Découvrir le Data Mining, les contextes
d’applicaon ainsi que les enjeux.
Faire un tour d’horizon des logiciels dédiés au Data
Mining.
Découvrir une méthode phare au travers d’une
applicaon.
30 juin
Analyse de Données Qualitaves et
Quantaves (J21)
Vue d’ensemble des méthodes stasques
permeant de visualiser et d’étudier les liens
entre les variables d’un jeu de données.
Savoir quelle méthode uliser en foncon de la
nature des variables.
Arbres de décision / Arbres de régression
Agrégaon de modèles : forêts aléatoires,
bagging, boosng (J22)
Découvrir les arbres de décision ou de
régression ainsi que les méthodes
d’agrégaon de modèles : les algorithmes de
construcon, l’interprétaon, les paramètres à
régler ainsi que les avantages /inconvénients de ces
méthodes.
01er juillet
Analyse de Données Mixtes (J31)
Une problémaque courante : explorer un jeu
de données comprenant des variables
qualitaves et des variables quantaves.
Analyse simultanée des deux types de variables.
Méthodes de régression
Les méthodes PLS : Pour analyser des données
muldimensionnelles lorsque le nombre de
variables est très grand et les corrélaons entre
variables nombreuses (J32)
Découvrir les méthodes de régression mulples et
leurs limites.
02 juillet
Séance plénière avec la parcipaon de Michel Tenenhaus (Analyse de données mul-blocs ou
mul-groupes), une présentaon de la méthode du Scoring et les témoignages de professionnels
(J4)
Visite de la ville de Guérande. Dîner de Gala
03 juillet
Atelier Analyse Sensorielle (J51)
Comprendre et mere en place la méthode du
Prol Flash : une méthode comparave
chaque sujet ulise ses propres descripteurs.
Machine Learning ou Apprenssage automaque
Réseaux de neurones
Supports à Vastes Marges (J52)
Découvrir deux méthodes d’apprenssage
automaque : les réseaux de neurones et les
« Support Vector Machines » ou « Support à Vaste
Marge » (SVM).
Journées d’Eté Statistiques et Data Mining
Le Croisic, du 29 juin au 03 juillet 2015
Explorer
Apprenssage non supervisé
Modéliser et Prévoir
Apprenssage supervisé
Panorama des Méthodes Stasques
d’Analyse de Données (J11)
Introducon au Data Mining (J12)
Extraire des connaissances des données, souvent
disponibles en grande quanté mais peu exploitées.
O
B
J
E
C
T
I
F
S
Découvrir un panorama complet des méthodes
stasques ulisées en analyse des données.
Savoir quelle méthode uliser en foncon des
données disponibles et des objecfs à aeindre.
Découvrir le Data Mining, les contextes d’applicaon
ainsi que les enjeux.
Faire un tour d’horizon des logiciels dédiés au Data
Mining.
Découvrir une méthode phare au travers d’une
applicaon.
P
R
O
G
R
A
M
M
E
La logique du traitement stasque de l’infor-
maon « explorer pour comprendre »
Répondre à une queson parculière
Comprendre un phénomène
Extraire l’informaon pernente des
données
Quelles techniques uliser et dans quels cas
Explorer, décrire, synthéser
Les techniques unidimensionnelles, bi-
dimensionnelles et muldimensionnelles
Les stasques exploratoires vs
conrmatoires
Exemples concrets de mise en œuvre des
méthodes d’analyse des données stasques.
Construcon d’un arbre : en foncon des
données (nature, nombre et objecf), quelle est
la méthode adaptée.
Introducon au Data Mining
Qu’est ce que le datamining
A quoi sert le datamining
Data Mining et Big Data
Domaines d’ulisaon
Les méthodes du Datamining
Le déroulement d’une étude de datamining
Les diérentes méthodes de validaon
Les logiciels du Data Mining
Présentaon et discussion autour de quelques
applicaons.
Une applicaon phare du Data Mining : les règles
d’associaon
Principes et présentaon au travers d’une
applicaon
Journées dÉté Statistiques et Data Mining - 29 juin 2015
Explorer
Apprenssage non supervisé
Modéliser et Prévoir
Apprenssage supervisé
Analyse de Données Quantaves et
Qualitaves (J21)
Arbres de décision/Arbres de régression
Agrégaon de modèles : forêts
aléatoires, bagging, boosng (J22)
O
B
J
E
C
T
I
F
S
Vue d’ensemble des méthodes stasques
permeant de visualiser et d’étudier les liens
entre les variables d’un jeu de données.
Savoir quelle méthode uliser en foncon de la
nature des variables.
Découvrir les arbres de décision ou de régression
ainsi que les méthodes d’agrégaon de modèles : les
algorithmes de construcon, l’interprétaon, les
paramètres à régler ainsi que les avantages /
inconvénients de ces méthodes.
P
R
O
G
R
A
M
M
E
Introducon
La préparaon des données pour le traitement
stasque
Fichier de saisie versus chier de données
pour l’analyse stasque.
La codicaon des données.
Etude de données quantaves
Analyser un ensemble de variables quantaves
et en révéler les structures et les tendances.
Etude de la relaon entre deux variables :
corrélaon et nuage de points
Extension à plus de deux variables
quantaves : l’Analyse en Composantes
Principales (A.C.P.)
Créer des groupes d’individus homogènes
sur plusieurs variables quantaves :
La classicaon ascendante hiérarchique
(CAH)
Etude de données qualitaves
Apprendre les méthodes stasques
permeant d’étudier les liaisons entre plusieurs
variables qualitaves.
Etude de la relaon entre deux variables :
tableau de conngence et test du CHI²
Extension à plus de deux variables
qualitaves : l’Analyse factorielle des
Correspondances
Mulples (A.C.M.)
Créer des groupes d’individus homogènes
sur plusieurs variables qualitaves : La
classicaon ascendante hiérarchique
(CAH)
Analyses basées sur des exemples détaillés
d’ulisaons réelles pris dans divers domaines
Arbres de décision/Arbres de régression :
Algorithme de construcon
Choix du paramétrage : profondeur de l’arbre,
nombre d’individus par nœuds, complexité,…
Elagage
Présentaon d’une applicaon
Agrégaon de modèles : forêts aléatoires,
bagging, boosng
Principes de construcon
Quand et pourquoi uliser des modèles agrégés
Choix du paramétrage
Présentaon d’une applicaon
Journées dÉté Statistiques et Data Mining - 30 juin 2015
Explorer
Apprenssage non supervisé
Modéliser et Prévoir
Apprenssage supervisé
Analyse de Données Mixtes (J31) Méthodes de régression
Les méthodes PLS (J32)
O
B
J
E
C
T
I
F
S
Une problémaque courante : explorer un jeu
de données comprenant des variables
qualitaves et des variables quantaves.
Analyse simultanée des deux types de variables.
Découvrir les méthodes de régression mulples et
leurs limites
P
R
O
G
R
A
M
M
E
L’AFDM : Analyse Factorielle des Données
Mixtes
Rappel sur l’ACP : étude de variables
uniquement quantaves
Rappel sur l’ACM : étude de variables
uniquement qualitaves
Aller plus loin : prise en compte à la fois
de variables quantaves et qualitaves :
l’AFDM
Principe de la méthode
Les résultats : lecture et interpré-
taon des graphiques et stasques
obtenues
Classicaon des données à l’issue d’un
AFDM
Apprenssage basé sur des exemples concrets
issus de diérents milieux.
Méthodes de régression
Modéliser certains phénomènes an d’en
prévoir les caractérisques, de réaliser des
prévisions ou d’en prévoir l’évoluon au cours
du temps.
Lorsque la variable à expliquer est quantave
connue : on ulise des méthodes de
régression simple ou mulple selon le nombre
de variables explicaves.
Régression mulple avec sélecon pas à
pas des variables explicaves,
Régression sur composantes principales,
régression PLS
Les méthodes PLS : Pour analyser des données
muldimensionnelles lorsque le nombre de
variables est très grand et les corrélaons entre
variables nombreuses.
Les contextes d’ulisaon des méthodes PLS
Prétraitement des données : les diérents types
de ltrage
La régression PLS :
Recherche des composantes PLS
Régression de Y sur ces composantes
Expression des coecients de la
régression en foncon des variables
prédicves
Choix des composantes signicaves par
validaon croisée
Journées dÉté Statistiques et Data Mining - 01er juillet 2015
Explorer / Modéliser et Prévoir
Séance plénière avec la parcipaon de Michel Tenenhaus (Analyse de données mul-
blocs ou mul-groupes), une présentaon de la Méthode du Scoring et les témoignages
de professionnels (J4)
O
B
J
E
C
T
I
F
S
Les tableaux de données individus x variables sont le plus souvent structurés en blocs de variables ou en
groupes d’individus. Cee structuraon est le plus souvent implicite, mais peut aussi être explicite. M.
Tenenhaus présentera dans son exposé diérentes méthodes stasques permeant de découvrir ces
structures lorsqu’elles ne sont pas connues a priori, ou d’en tenir compte lorsqu’elles sont connues.
Prévoir la solvabilité d’un client, la présence ou l’absence d’une tumeur, ou la défaillance d’un
composant à l’aide d’un score.
P
R
O
G
R
A
M
M
E
Analyse de données mul-blocs ou mul-groupes
Nous considérerons les situaons suivantes pour des tableaux de données observés sur les mêmes
individus :
un tableau X : l’analyse factorielle et la classicaon automaque permeent de détecter les blocs
de variables et les groupes d’individus
un tableau de variables explicaves X + un tableau de variables dépendantes Y : les méthodes de
segmentaon permeent de construire des groupes homogènes d’individus au niveau des X et des
Y (en parculier les arbres PLS)
un tableau structuré à priori en plusieurs blocs de variables : nous présenterons les méthodes
d’analyse de données mul-blocs (PLS-PM, Consensus PCA, régression PLS hiérarchique)
un tableau structuré a priori en plusieurs groupes d’individus : nous présenterons les méthodes
d’analyse mul-groupes (Simultaneous Component Analysis)
Scoring
Les étapes de la méthode du Scoring : A parr d’un jeu de données qualitaves, l’ACM permet
d’obtenir des données quantaves sur lesquelles une AFD pourra être appliquée pour construire
un score.
Illustraon avec le logiciel Uniwin.
Journées dÉté Statistiques et Data Mining - 02 juillet 2015
L
E
S
O
I
R
Visite de la ville de Guérande
Apérif et dîner de gala
1 / 7 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !