Journées d`Eté Statistiques et Data Mining

publicité
Journées d’Eté Statistiques et Data Mining
Le Croisic, du 29 juin au 03 juillet 2015
Nos 8èmes Journées d’Eté vous offrent la possibilité de construire votre
programme personnalisé de formation en Statistiques et Data Mining d’une
durée de 1 à 5 jours.
Cette année, les thématiques proposées sont :
Explorer
Modéliser et Prévoir
Apprentissage non supervisé
Apprentissage supervisé
Panorama des Méthodes Statistiques d’Analyse
de Données (J11)
Découvrir un panorama complet des méthodes
statistiques utilisées en analyse des données.
Savoir quelle méthode utiliser en fonction des
données disponibles et des objectifs à atteindre.
Introduction au Data Mining : Extraire des
connaissances
des
données,
souvent
disponibles en grande quantité mais peu
exploitées (J12)
Découvrir le Data Mining, les contextes
d’application ainsi que les enjeux.
Faire un tour d’horizon des logiciels dédiés au Data
Mining.
Découvrir une méthode phare au travers d’une
application.
Analyse de Données Qualitatives et
Quantitatives (J21)
Vue d’ensemble des méthodes statistiques
permettant de visualiser et d’étudier les liens
entre les variables d’un jeu de données.
Savoir quelle méthode utiliser en fonction de la
nature des variables.
Arbres de décision / Arbres de régression
Agrégation de modèles : forêts aléatoires,
bagging, boosting (J22)
Découvrir les arbres de décision ou de
régression
ainsi
que
les
méthodes
d’agrégation de modèles : les algorithmes de
construction, l’interprétation, les paramètres à
régler ainsi que les avantages /inconvénients de ces
méthodes.
Analyse de Données Mixtes (J31)
Une problématique courante : explorer un jeu
de données comprenant des variables
er
01 juillet qualitatives et des variables quantitatives.
Analyse simultanée des deux types de variables.
Méthodes de régression
Les méthodes PLS : Pour analyser des données
multidimensionnelles lorsque le nombre de
variables est très grand et les corrélations entre
variables nombreuses (J32)
Découvrir les méthodes de régression multiples et
leurs limites.
29 juin
30 juin
02 juillet
Séance plénière avec la participation de Michel Tenenhaus (Analyse de données multi-blocs ou
multi-groupes), une présentation de la méthode du Scoring et les témoignages de professionnels
(J4)
Visite de la ville de Guérande. Dîner de Gala
03 juillet
Atelier Analyse Sensorielle (J51)
Machine Learning ou Apprentissage automatique
Comprendre et mettre en place la méthode du Réseaux de neurones
Profil Flash : une méthode comparative où Supports à Vastes Marges (J52)
Découvrir deux
méthodes
d’apprentissage
chaque sujet utilise ses propres descripteurs.
automatique : les réseaux de neurones et les
« Support Vector Machines » ou « Support à Vaste
Marge » (SVM).
Journées d’Été Statistiques et Data Mining - 29 juin 2015
Explorer
Modéliser et Prévoir
Apprentissage non supervisé
Apprentissage supervisé
Panorama des Méthodes Statistiques
d’Analyse de Données (J11)
O
B
J
E
C
T
I
F
S
P
R
O
G
R
A
M
M
E
Découvrir un panorama complet des méthodes
statistiques utilisées en analyse des données.
Savoir quelle méthode utiliser en fonction des
données disponibles et des objectifs à atteindre.
Introduction
au
Data
Mining
(J12)
Extraire des connaissances des données, souvent
disponibles en grande quantité mais peu exploitées.
Découvrir le Data Mining, les contextes d’application
ainsi que les enjeux.
Faire un tour d’horizon des logiciels dédiés au Data
Mining.
Découvrir une méthode phare au travers d’une
application.
La logique du traitement statistique de l’infor- Introduction au Data Mining
mation « explorer pour comprendre »
 Qu’est ce que le datamining
 Répondre à une question particulière
 A quoi sert le datamining
 Comprendre un phénomène
 Data Mining et Big Data
 Extraire l’information pertinente des
 Domaines d’utilisation
données
 Les méthodes du Datamining
 Le déroulement d’une étude de datamining
Quelles techniques utiliser et dans quels cas
 Les différentes méthodes de validation
 Explorer, décrire, synthétiser
 Les logiciels du Data Mining
 Les techniques unidimensionnelles, bi Présentation et discussion autour de quelques
dimensionnelles et multidimensionnelles
applications.
 Les
statistiques
exploratoires
vs
confirmatoires
Une application phare du Data Mining : les règles
d’association
Exemples concrets de mise en œuvre des
 Principes et présentation au travers d’une
méthodes d’analyse des données statistiques.
application
Construction d’un arbre : en fonction des
données (nature, nombre et objectif), quelle est
la méthode adaptée.
Journées d’Été Statistiques et Data Mining - 30 juin 2015
O
B
J
E
C
T
I
F
S
P
R
O
G
R
A
M
M
E
Explorer
Modéliser et Prévoir
Apprentissage non supervisé
Apprentissage supervisé
Analyse de Données Quantitatives et
Qualitatives (J21)
Arbres de décision/Arbres de régression
Agrégation de modèles : forêts
aléatoires, bagging, boosting (J22)
Vue d’ensemble des méthodes statistiques
permettant de visualiser et d’étudier les liens
entre les variables d’un jeu de données.
Savoir quelle méthode utiliser en fonction de la
nature des variables.
Découvrir les arbres de décision ou de régression
ainsi que les méthodes d’agrégation de modèles : les
algorithmes de construction, l’interprétation, les
paramètres à régler ainsi que les avantages /
inconvénients de ces méthodes.
Introduction
La préparation des données pour le traitement
statistique
 Fichier de saisie versus fichier de données
pour l’analyse statistique.
 La codification des données.
Arbres de décision/Arbres de régression :
 Algorithme de construction
 Choix du paramétrage : profondeur de l’arbre,
nombre d’individus par nœuds, complexité,…
 Elagage
 Présentation d’une application
Etude de données quantitatives
Agrégation de modèles : forêts aléatoires,
Analyser un ensemble de variables quantitatives bagging, boosting
et en révéler les structures et les tendances.
 Principes de construction
 Etude de la relation entre deux variables :
 Quand et pourquoi utiliser des modèles agrégés
corrélation et nuage de points
 Choix du paramétrage
 Extension à plus de deux variables
 Présentation d’une application
quantitatives : l’Analyse en Composantes
Principales (A.C.P.)
 Créer des groupes d’individus homogènes
sur plusieurs variables quantitatives :
La classification ascendante hiérarchique
(CAH)
Etude de données qualitatives
Apprendre
les
méthodes
statistiques
permettant d’étudier les liaisons entre plusieurs
variables qualitatives.
 Etude de la relation entre deux variables :
tableau de contingence et test du CHI²
 Extension à plus de deux variables
qualitatives : l’Analyse factorielle des
Correspondances
Multiples (A.C.M.)
 Créer des groupes d’individus homogènes
sur plusieurs variables qualitatives : La
classification ascendante hiérarchique
(CAH)
Analyses basées sur des exemples détaillés
d’utilisations réelles pris dans divers domaines
Journées d’Été Statistiques et Data Mining - 01 er juillet 2015
O
B
J
E
C
T
I
F
S
P
R
O
G
R
A
M
M
E
Explorer
Modéliser et Prévoir
Apprentissage non supervisé
Apprentissage supervisé
Analyse de Données Mixtes (J31)
Méthodes de régression
Les méthodes PLS (J32)
Une problématique courante : explorer un jeu Découvrir les méthodes de régression multiples et
de données comprenant des variables leurs limites
qualitatives et des variables quantitatives.
Analyse simultanée des deux types de variables.
L’AFDM : Analyse Factorielle des Données Méthodes de régression
Mixtes
 Modéliser certains phénomènes afin d’en
prévoir les caractéristiques, de réaliser des
 Rappel sur l’ACP : étude de variables
prévisions ou d’en prévoir l’évolution au cours
uniquement quantitatives
du temps.
 Rappel sur l’ACM : étude de variables
 Lorsque la variable à expliquer est quantitative
uniquement qualitatives
continue : on utilise des méthodes de
 Aller plus loin : prise en compte à la fois
régression simple ou multiple selon le nombre
de variables quantitatives et qualitatives :
de variables explicatives.
l’AFDM
 Régression multiple avec sélection pas à
 Principe de la méthode
pas des variables explicatives,
 Les résultats : lecture et interpré Régression sur composantes principales,
tation des graphiques et statistiques
régression PLS
obtenues
 Classification des données à l’issue d’un Les méthodes PLS : Pour analyser des données
AFDM
multidimensionnelles lorsque le nombre de
variables est très grand et les corrélations entre
Apprentissage basé sur des exemples concrets
variables nombreuses.
issus de différents milieux.
 Les contextes d’utilisation des méthodes PLS
 Prétraitement des données : les différents types
de filtrage
 La régression PLS :
 Recherche des composantes PLS
 Régression de Y sur ces composantes
 Expression
des coefficients de la
régression en fonction des variables
prédictives
 Choix des composantes significatives par
validation croisée
Journées d’Été Statistiques et Data Mining - 02 juillet 2015
Explorer / Modéliser et Prévoir
Séance plénière avec la participation de Michel Tenenhaus (Analyse de données multiblocs ou multi-groupes), une présentation de la Méthode du Scoring et les témoignages
de professionnels (J4)
O
B
J
E
C
T
I
F
S
P
R
O
G
R
A
M
M
E
Les tableaux de données individus x variables sont le plus souvent structurés en blocs de variables ou en
groupes d’individus. Cette structuration est le plus souvent implicite, mais peut aussi être explicite. M.
Tenenhaus présentera dans son exposé différentes méthodes statistiques permettant de découvrir ces
structures lorsqu’elles ne sont pas connues a priori, ou d’en tenir compte lorsqu’elles sont connues.
Prévoir la solvabilité d’un client, la présence ou l’absence d’une tumeur, ou la défaillance d’un
composant à l’aide d’un score.
Analyse de données multi-blocs ou multi-groupes
Nous considérerons les situations suivantes pour des tableaux de données observés sur les mêmes
individus :
 un tableau X : l’analyse factorielle et la classification automatique permettent de détecter les blocs
de variables et les groupes d’individus
 un tableau de variables explicatives X + un tableau de variables dépendantes Y : les méthodes de
segmentation permettent de construire des groupes homogènes d’individus au niveau des X et des
Y (en particulier les arbres PLS)
 un tableau structuré à priori en plusieurs blocs de variables : nous présenterons les méthodes
d’analyse de données multi-blocs (PLS-PM, Consensus PCA, régression PLS hiérarchique)
 un tableau structuré a priori en plusieurs groupes d’individus : nous présenterons les méthodes
d’analyse multi-groupes (Simultaneous Component Analysis)
Scoring
 Les étapes de la méthode du Scoring : A partir d’un jeu de données qualitatives, l’ACM permet
d’obtenir des données quantitatives sur lesquelles une AFD pourra être appliquée pour construire
un score.
 Illustration avec le logiciel Uniwin.
L
E
S
O
I
R
Visite de la ville de Guérande
Apéritif et dîner de gala
Journées d’Été Statistiques et Data Mining - 03 juillet 2015
O
B
J
E
C
T
I
F
S
P
R
O
G
R
A
M
M
E
Explorer
Modéliser / Prévoir
Apprentissage non supervisé
Apprentissage supervisé
Atelier Analyse Sensorielle (J51)
Machine Learning ou Apprentissage
Automatique
Réseaux de Neurones
Supports à Vastes Marges (J52)
Comprendre et mettre en place la méthode du
Profil Flash : une méthode comparative où
chaque sujet utilise ses propres descripteurs.
Découvrir
deux
méthodes
d’apprentissage
automatique : les réseaux de neurones et les
« Support Vector Machines » ou « Support à Vaste
Marge » (SVM)
Le Profil Flash
Machine Learning ou Apprentissage automatique

Présentation et principe du Profil Flash
 Généralités, fonction de coût, algorithmes

Mise en pratique : Dégustation de
d’optimisation, courbes d’apprentissage
caramels

Analyse et interprétation des résultats Réseaux de neurones
de l’atelier
 Principes : neurones et liaison entre neurones,

Discussion sur les avantages et
fonction de transfert

Architecture d’un réseau
inconvénients de cette méthode
 Algorithme d’apprentissage
 Présentation d’une application
 Contextes d’utilisation
 Avantages / inconvénients
Supports à Vastes Marges
 Principes,
 Paramètres de coût, noyaux
 Présentation d’une application
 Contextes d’utilisation
 Avantages / inconvénients
ai,
m
29 ise rit.
u
a
’ reme insc
u
sq e èm
Ju % d 2
25 s le
dè
Frais d’inscription
aux Journées d’Eté
Statistiques et
Data Mining :
 1 jour :
600 € HT
Bulletin d’inscription
« Journées d’Eté Statistiques et Data Mining »
A envoyer dûment rempli par mail, fax ou courrier à :
SIGMA PLUS - Les Triades B - 130 rue Galilée - 31670 LABEGE
Tél. : 05 34 31 82 70 – Fax : 05 34 31 82 71 - [email protected]
Participant(s)
Société / Établissement :
2
jours : 1 100 € HT
3
jours : 1 500 € HT
4
jours : 1 800€ HT
Tél. :
5
jours : 2 000€ HT
Prénom - Nom :
Nombre d’inscrits :
Adresse :
Assistera à :
□
E-mail :
J11
□ J12 □ J21 □ J22 □ J31 □ J32 □
Prénom - Nom :
J4 (+dîner)
□
J51
□
J52
E-mail :
Total HT :
Assistera à :
TVA (20%) :
□
J11
□ J12 □ J21 □ J22 □ J31 □ J32 □
Prénom - Nom :
Assistera à :
Total TTC :
□
J4 (+dîner)
□
J51
□
J52
J4 (+dîner)
□
J51
□
J52
E-mail :
J11
□ J12 □ J21 □ J22 □ J31 □ J32 □
Responsable Formation
Date :
Souhaitez vous recevoir une convention de formation ? □ Oui
Signature, cachet :
Prénom - Nom :
□ Non
Tél. :
Facturation
Prénom - Nom :
Société / Établissement :
Service :
Retrouvez-nous sur le Web
www.sigmaplus.fr
Adresse (si différente) :
Tél. :
Fax :
SIGMA PLUS
Toulouse (siège) :
Les Triades B
130 rue Galilée
31670 Labège
Paris :
6 rue Collange
92300 Levallois-Perret
Tél. : 05 34 31 82 70
Fax : 05 34 31 82 71
Email : [email protected]
Informations pratiques
Lieu et Dates
Les Journées d’Eté se dérouleront du 29 juin
au 3 juillet de 9h00 à 17h00 à l’Hôtel Les
Vikings au Croisic
Éléments remis
Supports pédagogiques des formations suivies.
Comment s’inscrire ?
Hébergement, restauration
Les déjeuners sont inclus dans le coût
d’inscription. L’hébergement et les repas du
soir sont libres et restent à la charge des
participants.
L’hôtel Les Vikings vous propose des chambres
de 80 à 94€ la nuit et un petit déjeuner à 10€.
Renseignements au 02 40 62 90 03.
En nous retournant ce formulaire d’inscription
dûment rempli. Une confirmation vous sera
faite à réception.
Facturation
Organisation matérielle
Annulation
Nous vous invitons à amener votre ordinateur
portable pour la mise en œuvre des
applications
La facture vous sera adressée accompagnée de
la feuille de présence.
 Au-delà du 31 mai 2015, les frais de
participation seront intégralement dus
 Sur demande, les participants pourront se
faire remplacer
Téléchargement