Journées d`Eté Statistiques et Data Mining

Téléchargement

Nos 8èmes Journées d’Eté vous orent la possibilité de construire votre

programme personnalisé de formaon en Stasques et Data Mining d’une

durée de 1 à 5 jours.

Cee année, les thémaques proposées sont :

Explorer

Apprenssage non supervisé

Modéliser et Prévoir

Apprenssage supervisé

29 juin

Panorama des Méthodes Stasques d’Analyse

de Données (J11)

Découvrir un panorama complet des méthodes

stasques ulisées en analyse des données.

Savoir quelle méthode uliser en foncon des

données disponibles et des objecfs à aeindre.

Introducon au Data Mining : Extraire des

connaissances des données, souvent

disponibles en grande quanté mais peu

exploitées (J12)

Découvrir le Data Mining, les contextes

d’applicaon ainsi que les enjeux.

Faire un tour d’horizon des logiciels dédiés au Data

Mining.

Découvrir une méthode phare au travers d’une

applicaon.

30 juin

Analyse de Données Qualitaves et

Quantaves (J21)

Vue d’ensemble des méthodes stasques

permeant de visualiser et d’étudier les liens

entre les variables d’un jeu de données.

Savoir quelle méthode uliser en foncon de la

nature des variables.

Arbres de décision / Arbres de régression

Agrégaon de modèles : forêts aléatoires,

bagging, boosng (J22)

Découvrir les arbres de décision ou de

régression ainsi que les méthodes

d’agrégaon de modèles : les algorithmes de

construcon, l’interprétaon, les paramètres à

régler ainsi que les avantages /inconvénients de ces

méthodes.

01er juillet

Analyse de Données Mixtes (J31)

Une problémaque courante : explorer un jeu

de données comprenant des variables

qualitaves et des variables quantaves.

Analyse simultanée des deux types de variables.

Méthodes de régression

Les méthodes PLS : Pour analyser des données

muldimensionnelles lorsque le nombre de

variables est très grand et les corrélaons entre

variables nombreuses (J32)

Découvrir les méthodes de régression mulples et

leurs limites.

02 juillet

Séance plénière avec la parcipaon de Michel Tenenhaus (Analyse de données mul-blocs ou

mul-groupes), une présentaon de la méthode du Scoring et les témoignages de professionnels

(J4)

Visite de la ville de Guérande. Dîner de Gala

03 juillet

Atelier Analyse Sensorielle (J51)

Comprendre et mere en place la méthode du

Prol Flash : une méthode comparave où

chaque sujet ulise ses propres descripteurs.

Machine Learning ou Apprenssage automaque

Réseaux de neurones

Supports à Vastes Marges (J52)

Découvrir deux méthodes d’apprenssage

automaque : les réseaux de neurones et les

« Support Vector Machines » ou « Support à Vaste

Marge » (SVM).

Journées d’Eté Statistiques et Data Mining

Le Croisic, du 29 juin au 03 juillet 2015

Explorer

Apprenssage non supervisé

Modéliser et Prévoir

Apprenssage supervisé

Panorama des Méthodes Stasques

d’Analyse de Données (J11)

Introducon au Data Mining (J12)

Extraire des connaissances des données, souvent

disponibles en grande quanté mais peu exploitées.

Découvrir un panorama complet des méthodes

stasques ulisées en analyse des données.

Savoir quelle méthode uliser en foncon des

données disponibles et des objecfs à aeindre.

Découvrir le Data Mining, les contextes d’applicaon

ainsi que les enjeux.

Faire un tour d’horizon des logiciels dédiés au Data

Mining.

Découvrir une méthode phare au travers d’une

applicaon.

La logique du traitement stasque de l’infor-

maon « explorer pour comprendre »

 Répondre à une queson parculière

 Comprendre un phénomène

 Extraire l’informaon pernente des

données

Quelles techniques uliser et dans quels cas

 Explorer, décrire, synthéser

 Les techniques unidimensionnelles, bi-

dimensionnelles et muldimensionnelles

 Les stasques exploratoires vs

conrmatoires

Exemples concrets de mise en œuvre des

méthodes d’analyse des données stasques.

Construcon d’un arbre : en foncon des

données (nature, nombre et objecf), quelle est

la méthode adaptée.

Introducon au Data Mining

 Qu’est ce que le datamining

 A quoi sert le datamining

 Data Mining et Big Data

 Domaines d’ulisaon

 Les méthodes du Datamining

 Le déroulement d’une étude de datamining

 Les diérentes méthodes de validaon

 Les logiciels du Data Mining

 Présentaon et discussion autour de quelques

applicaons.

Une applicaon phare du Data Mining : les règles

d’associaon

 Principes et présentaon au travers d’une

applicaon

Journées d’Été Statistiques et Data Mining - 29 juin 2015

Explorer

Apprenssage non supervisé

Modéliser et Prévoir

Apprenssage supervisé

Analyse de Données Quantaves et

Qualitaves (J21)

Arbres de décision/Arbres de régression

Agrégaon de modèles : forêts

aléatoires, bagging, boosng (J22)

Vue d’ensemble des méthodes stasques

permeant de visualiser et d’étudier les liens

entre les variables d’un jeu de données.

Savoir quelle méthode uliser en foncon de la

nature des variables.

Découvrir les arbres de décision ou de régression

ainsi que les méthodes d’agrégaon de modèles : les

algorithmes de construcon, l’interprétaon, les

paramètres à régler ainsi que les avantages /

inconvénients de ces méthodes.

Introducon

La préparaon des données pour le traitement

stasque

 Fichier de saisie versus chier de données

pour l’analyse stasque.

 La codicaon des données.

Etude de données quantaves

Analyser un ensemble de variables quantaves

et en révéler les structures et les tendances.

 Etude de la relaon entre deux variables :

corrélaon et nuage de points

 Extension à plus de deux variables

quantaves : l’Analyse en Composantes

Principales (A.C.P.)

 Créer des groupes d’individus homogènes

sur plusieurs variables quantaves :

La classicaon ascendante hiérarchique

(CAH)

Etude de données qualitaves

Apprendre les méthodes stasques

permeant d’étudier les liaisons entre plusieurs

variables qualitaves.

 Etude de la relaon entre deux variables :

tableau de conngence et test du CHI²

 Extension à plus de deux variables

qualitaves : l’Analyse factorielle des

Correspondances

Mulples (A.C.M.)

 Créer des groupes d’individus homogènes

sur plusieurs variables qualitaves : La

classicaon ascendante hiérarchique

(CAH)

Analyses basées sur des exemples détaillés

d’ulisaons réelles pris dans divers domaines

Arbres de décision/Arbres de régression :

 Algorithme de construcon

 Choix du paramétrage : profondeur de l’arbre,

nombre d’individus par nœuds, complexité,…

 Elagage

 Présentaon d’une applicaon

Agrégaon de modèles : forêts aléatoires,

bagging, boosng

 Principes de construcon

 Quand et pourquoi uliser des modèles agrégés

 Choix du paramétrage

 Présentaon d’une applicaon

Journées d’Été Statistiques et Data Mining - 30 juin 2015

Explorer

Apprenssage non supervisé

Modéliser et Prévoir

Apprenssage supervisé

Analyse de Données Mixtes (J31) Méthodes de régression

Les méthodes PLS (J32)

Une problémaque courante : explorer un jeu

de données comprenant des variables

qualitaves et des variables quantaves.

Analyse simultanée des deux types de variables.

Découvrir les méthodes de régression mulples et

leurs limites

L’AFDM : Analyse Factorielle des Données

Mixtes

 Rappel sur l’ACP : étude de variables

uniquement quantaves

 Rappel sur l’ACM : étude de variables

uniquement qualitaves

 Aller plus loin : prise en compte à la fois

de variables quantaves et qualitaves :

l’AFDM

 Principe de la méthode

 Les résultats : lecture et interpré-

taon des graphiques et stasques

obtenues

 Classicaon des données à l’issue d’un

AFDM

Apprenssage basé sur des exemples concrets

issus de diérents milieux.

Méthodes de régression

 Modéliser certains phénomènes an d’en

prévoir les caractérisques, de réaliser des

prévisions ou d’en prévoir l’évoluon au cours

du temps.

 Lorsque la variable à expliquer est quantave

connue : on ulise des méthodes de

régression simple ou mulple selon le nombre

de variables explicaves.

 Régression mulple avec sélecon pas à

pas des variables explicaves,

 Régression sur composantes principales,

régression PLS

Les méthodes PLS : Pour analyser des données

muldimensionnelles lorsque le nombre de

variables est très grand et les corrélaons entre

variables nombreuses.

 Les contextes d’ulisaon des méthodes PLS

 Prétraitement des données : les diérents types

de ltrage

 La régression PLS :

 Recherche des composantes PLS

 Régression de Y sur ces composantes

 Expression des coecients de la

régression en foncon des variables

prédicves

 Choix des composantes signicaves par

validaon croisée

Journées d’Été Statistiques et Data Mining - 01er juillet 2015

Explorer / Modéliser et Prévoir

Séance plénière avec la parcipaon de Michel Tenenhaus (Analyse de données mul-

blocs ou mul-groupes), une présentaon de la Méthode du Scoring et les témoignages

de professionnels (J4)

Les tableaux de données individus x variables sont le plus souvent structurés en blocs de variables ou en

groupes d’individus. Cee structuraon est le plus souvent implicite, mais peut aussi être explicite. M.

Tenenhaus présentera dans son exposé diérentes méthodes stasques permeant de découvrir ces

structures lorsqu’elles ne sont pas connues a priori, ou d’en tenir compte lorsqu’elles sont connues.

Prévoir la solvabilité d’un client, la présence ou l’absence d’une tumeur, ou la défaillance d’un

composant à l’aide d’un score.

Analyse de données mul-blocs ou mul-groupes

Nous considérerons les situaons suivantes pour des tableaux de données observés sur les mêmes

individus :

 un tableau X : l’analyse factorielle et la classicaon automaque permeent de détecter les blocs

de variables et les groupes d’individus

 un tableau de variables explicaves X + un tableau de variables dépendantes Y : les méthodes de

segmentaon permeent de construire des groupes homogènes d’individus au niveau des X et des

Y (en parculier les arbres PLS)

 un tableau structuré à priori en plusieurs blocs de variables : nous présenterons les méthodes

d’analyse de données mul-blocs (PLS-PM, Consensus PCA, régression PLS hiérarchique)

 un tableau structuré a priori en plusieurs groupes d’individus : nous présenterons les méthodes

d’analyse mul-groupes (Simultaneous Component Analysis)

Scoring

 Les étapes de la méthode du Scoring : A parr d’un jeu de données qualitaves, l’ACM permet

d’obtenir des données quantaves sur lesquelles une AFD pourra être appliquée pour construire

un score.

 Illustraon avec le logiciel Uniwin.

Journées d’Été Statistiques et Data Mining - 02 juillet 2015

Visite de la ville de Guérande

Apérif et dîner de gala

1 / 7 100%

Documents connexes

titre sur 1 ou 2 lignes maximum

Text mining

Stage en Data Mining - Machine Learning Group

Datamining

Plan de cours

master psychologie sociale des représentations : études qualitatives

Data/Pattern Analysis

Analyse des données quantitatives - Quantitative data analysis

Fiche-UE_CODE_CR_OPT_DM - LIRIS

Glossaire

Titre du cours - Collège de Bois-de

Statistique, Apprentissage, Big–Data–Mining

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Journées d`Eté Statistiques et Data Mining

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Journées d`Eté Statistiques et Data Mining

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib