Journées d’Eté Statistiques et Data Mining Le Croisic, du 29 juin au 03 juillet 2015 Nos 8èmes Journées d’Eté vous offrent la possibilité de construire votre programme personnalisé de formation en Statistiques et Data Mining d’une durée de 1 à 5 jours. Cette année, les thématiques proposées sont : Explorer Modéliser et Prévoir Apprentissage non supervisé Apprentissage supervisé Panorama des Méthodes Statistiques d’Analyse de Données (J11) Découvrir un panorama complet des méthodes statistiques utilisées en analyse des données. Savoir quelle méthode utiliser en fonction des données disponibles et des objectifs à atteindre. Introduction au Data Mining : Extraire des connaissances des données, souvent disponibles en grande quantité mais peu exploitées (J12) Découvrir le Data Mining, les contextes d’application ainsi que les enjeux. Faire un tour d’horizon des logiciels dédiés au Data Mining. Découvrir une méthode phare au travers d’une application. Analyse de Données Qualitatives et Quantitatives (J21) Vue d’ensemble des méthodes statistiques permettant de visualiser et d’étudier les liens entre les variables d’un jeu de données. Savoir quelle méthode utiliser en fonction de la nature des variables. Arbres de décision / Arbres de régression Agrégation de modèles : forêts aléatoires, bagging, boosting (J22) Découvrir les arbres de décision ou de régression ainsi que les méthodes d’agrégation de modèles : les algorithmes de construction, l’interprétation, les paramètres à régler ainsi que les avantages /inconvénients de ces méthodes. Analyse de Données Mixtes (J31) Une problématique courante : explorer un jeu de données comprenant des variables er 01 juillet qualitatives et des variables quantitatives. Analyse simultanée des deux types de variables. Méthodes de régression Les méthodes PLS : Pour analyser des données multidimensionnelles lorsque le nombre de variables est très grand et les corrélations entre variables nombreuses (J32) Découvrir les méthodes de régression multiples et leurs limites. 29 juin 30 juin 02 juillet Séance plénière avec la participation de Michel Tenenhaus (Analyse de données multi-blocs ou multi-groupes), une présentation de la méthode du Scoring et les témoignages de professionnels (J4) Visite de la ville de Guérande. Dîner de Gala 03 juillet Atelier Analyse Sensorielle (J51) Machine Learning ou Apprentissage automatique Comprendre et mettre en place la méthode du Réseaux de neurones Profil Flash : une méthode comparative où Supports à Vastes Marges (J52) Découvrir deux méthodes d’apprentissage chaque sujet utilise ses propres descripteurs. automatique : les réseaux de neurones et les « Support Vector Machines » ou « Support à Vaste Marge » (SVM). Journées d’Été Statistiques et Data Mining - 29 juin 2015 Explorer Modéliser et Prévoir Apprentissage non supervisé Apprentissage supervisé Panorama des Méthodes Statistiques d’Analyse de Données (J11) O B J E C T I F S P R O G R A M M E Découvrir un panorama complet des méthodes statistiques utilisées en analyse des données. Savoir quelle méthode utiliser en fonction des données disponibles et des objectifs à atteindre. Introduction au Data Mining (J12) Extraire des connaissances des données, souvent disponibles en grande quantité mais peu exploitées. Découvrir le Data Mining, les contextes d’application ainsi que les enjeux. Faire un tour d’horizon des logiciels dédiés au Data Mining. Découvrir une méthode phare au travers d’une application. La logique du traitement statistique de l’infor- Introduction au Data Mining mation « explorer pour comprendre » Qu’est ce que le datamining Répondre à une question particulière A quoi sert le datamining Comprendre un phénomène Data Mining et Big Data Extraire l’information pertinente des Domaines d’utilisation données Les méthodes du Datamining Le déroulement d’une étude de datamining Quelles techniques utiliser et dans quels cas Les différentes méthodes de validation Explorer, décrire, synthétiser Les logiciels du Data Mining Les techniques unidimensionnelles, bi Présentation et discussion autour de quelques dimensionnelles et multidimensionnelles applications. Les statistiques exploratoires vs confirmatoires Une application phare du Data Mining : les règles d’association Exemples concrets de mise en œuvre des Principes et présentation au travers d’une méthodes d’analyse des données statistiques. application Construction d’un arbre : en fonction des données (nature, nombre et objectif), quelle est la méthode adaptée. Journées d’Été Statistiques et Data Mining - 30 juin 2015 O B J E C T I F S P R O G R A M M E Explorer Modéliser et Prévoir Apprentissage non supervisé Apprentissage supervisé Analyse de Données Quantitatives et Qualitatives (J21) Arbres de décision/Arbres de régression Agrégation de modèles : forêts aléatoires, bagging, boosting (J22) Vue d’ensemble des méthodes statistiques permettant de visualiser et d’étudier les liens entre les variables d’un jeu de données. Savoir quelle méthode utiliser en fonction de la nature des variables. Découvrir les arbres de décision ou de régression ainsi que les méthodes d’agrégation de modèles : les algorithmes de construction, l’interprétation, les paramètres à régler ainsi que les avantages / inconvénients de ces méthodes. Introduction La préparation des données pour le traitement statistique Fichier de saisie versus fichier de données pour l’analyse statistique. La codification des données. Arbres de décision/Arbres de régression : Algorithme de construction Choix du paramétrage : profondeur de l’arbre, nombre d’individus par nœuds, complexité,… Elagage Présentation d’une application Etude de données quantitatives Agrégation de modèles : forêts aléatoires, Analyser un ensemble de variables quantitatives bagging, boosting et en révéler les structures et les tendances. Principes de construction Etude de la relation entre deux variables : Quand et pourquoi utiliser des modèles agrégés corrélation et nuage de points Choix du paramétrage Extension à plus de deux variables Présentation d’une application quantitatives : l’Analyse en Composantes Principales (A.C.P.) Créer des groupes d’individus homogènes sur plusieurs variables quantitatives : La classification ascendante hiérarchique (CAH) Etude de données qualitatives Apprendre les méthodes statistiques permettant d’étudier les liaisons entre plusieurs variables qualitatives. Etude de la relation entre deux variables : tableau de contingence et test du CHI² Extension à plus de deux variables qualitatives : l’Analyse factorielle des Correspondances Multiples (A.C.M.) Créer des groupes d’individus homogènes sur plusieurs variables qualitatives : La classification ascendante hiérarchique (CAH) Analyses basées sur des exemples détaillés d’utilisations réelles pris dans divers domaines Journées d’Été Statistiques et Data Mining - 01 er juillet 2015 O B J E C T I F S P R O G R A M M E Explorer Modéliser et Prévoir Apprentissage non supervisé Apprentissage supervisé Analyse de Données Mixtes (J31) Méthodes de régression Les méthodes PLS (J32) Une problématique courante : explorer un jeu Découvrir les méthodes de régression multiples et de données comprenant des variables leurs limites qualitatives et des variables quantitatives. Analyse simultanée des deux types de variables. L’AFDM : Analyse Factorielle des Données Méthodes de régression Mixtes Modéliser certains phénomènes afin d’en prévoir les caractéristiques, de réaliser des Rappel sur l’ACP : étude de variables prévisions ou d’en prévoir l’évolution au cours uniquement quantitatives du temps. Rappel sur l’ACM : étude de variables Lorsque la variable à expliquer est quantitative uniquement qualitatives continue : on utilise des méthodes de Aller plus loin : prise en compte à la fois régression simple ou multiple selon le nombre de variables quantitatives et qualitatives : de variables explicatives. l’AFDM Régression multiple avec sélection pas à Principe de la méthode pas des variables explicatives, Les résultats : lecture et interpré Régression sur composantes principales, tation des graphiques et statistiques régression PLS obtenues Classification des données à l’issue d’un Les méthodes PLS : Pour analyser des données AFDM multidimensionnelles lorsque le nombre de variables est très grand et les corrélations entre Apprentissage basé sur des exemples concrets variables nombreuses. issus de différents milieux. Les contextes d’utilisation des méthodes PLS Prétraitement des données : les différents types de filtrage La régression PLS : Recherche des composantes PLS Régression de Y sur ces composantes Expression des coefficients de la régression en fonction des variables prédictives Choix des composantes significatives par validation croisée Journées d’Été Statistiques et Data Mining - 02 juillet 2015 Explorer / Modéliser et Prévoir Séance plénière avec la participation de Michel Tenenhaus (Analyse de données multiblocs ou multi-groupes), une présentation de la Méthode du Scoring et les témoignages de professionnels (J4) O B J E C T I F S P R O G R A M M E Les tableaux de données individus x variables sont le plus souvent structurés en blocs de variables ou en groupes d’individus. Cette structuration est le plus souvent implicite, mais peut aussi être explicite. M. Tenenhaus présentera dans son exposé différentes méthodes statistiques permettant de découvrir ces structures lorsqu’elles ne sont pas connues a priori, ou d’en tenir compte lorsqu’elles sont connues. Prévoir la solvabilité d’un client, la présence ou l’absence d’une tumeur, ou la défaillance d’un composant à l’aide d’un score. Analyse de données multi-blocs ou multi-groupes Nous considérerons les situations suivantes pour des tableaux de données observés sur les mêmes individus : un tableau X : l’analyse factorielle et la classification automatique permettent de détecter les blocs de variables et les groupes d’individus un tableau de variables explicatives X + un tableau de variables dépendantes Y : les méthodes de segmentation permettent de construire des groupes homogènes d’individus au niveau des X et des Y (en particulier les arbres PLS) un tableau structuré à priori en plusieurs blocs de variables : nous présenterons les méthodes d’analyse de données multi-blocs (PLS-PM, Consensus PCA, régression PLS hiérarchique) un tableau structuré a priori en plusieurs groupes d’individus : nous présenterons les méthodes d’analyse multi-groupes (Simultaneous Component Analysis) Scoring Les étapes de la méthode du Scoring : A partir d’un jeu de données qualitatives, l’ACM permet d’obtenir des données quantitatives sur lesquelles une AFD pourra être appliquée pour construire un score. Illustration avec le logiciel Uniwin. L E S O I R Visite de la ville de Guérande Apéritif et dîner de gala Journées d’Été Statistiques et Data Mining - 03 juillet 2015 O B J E C T I F S P R O G R A M M E Explorer Modéliser / Prévoir Apprentissage non supervisé Apprentissage supervisé Atelier Analyse Sensorielle (J51) Machine Learning ou Apprentissage Automatique Réseaux de Neurones Supports à Vastes Marges (J52) Comprendre et mettre en place la méthode du Profil Flash : une méthode comparative où chaque sujet utilise ses propres descripteurs. Découvrir deux méthodes d’apprentissage automatique : les réseaux de neurones et les « Support Vector Machines » ou « Support à Vaste Marge » (SVM) Le Profil Flash Machine Learning ou Apprentissage automatique Présentation et principe du Profil Flash Généralités, fonction de coût, algorithmes Mise en pratique : Dégustation de d’optimisation, courbes d’apprentissage caramels Analyse et interprétation des résultats Réseaux de neurones de l’atelier Principes : neurones et liaison entre neurones, Discussion sur les avantages et fonction de transfert Architecture d’un réseau inconvénients de cette méthode Algorithme d’apprentissage Présentation d’une application Contextes d’utilisation Avantages / inconvénients Supports à Vastes Marges Principes, Paramètres de coût, noyaux Présentation d’une application Contextes d’utilisation Avantages / inconvénients ai, m 29 ise rit. u a ’ reme insc u sq e èm Ju % d 2 25 s le dè Frais d’inscription aux Journées d’Eté Statistiques et Data Mining : 1 jour : 600 € HT Bulletin d’inscription « Journées d’Eté Statistiques et Data Mining » A envoyer dûment rempli par mail, fax ou courrier à : SIGMA PLUS - Les Triades B - 130 rue Galilée - 31670 LABEGE Tél. : 05 34 31 82 70 – Fax : 05 34 31 82 71 - [email protected] Participant(s) Société / Établissement : 2 jours : 1 100 € HT 3 jours : 1 500 € HT 4 jours : 1 800€ HT Tél. : 5 jours : 2 000€ HT Prénom - Nom : Nombre d’inscrits : Adresse : Assistera à : □ E-mail : J11 □ J12 □ J21 □ J22 □ J31 □ J32 □ Prénom - Nom : J4 (+dîner) □ J51 □ J52 E-mail : Total HT : Assistera à : TVA (20%) : □ J11 □ J12 □ J21 □ J22 □ J31 □ J32 □ Prénom - Nom : Assistera à : Total TTC : □ J4 (+dîner) □ J51 □ J52 J4 (+dîner) □ J51 □ J52 E-mail : J11 □ J12 □ J21 □ J22 □ J31 □ J32 □ Responsable Formation Date : Souhaitez vous recevoir une convention de formation ? □ Oui Signature, cachet : Prénom - Nom : □ Non Tél. : Facturation Prénom - Nom : Société / Établissement : Service : Retrouvez-nous sur le Web www.sigmaplus.fr Adresse (si différente) : Tél. : Fax : SIGMA PLUS Toulouse (siège) : Les Triades B 130 rue Galilée 31670 Labège Paris : 6 rue Collange 92300 Levallois-Perret Tél. : 05 34 31 82 70 Fax : 05 34 31 82 71 Email : [email protected] Informations pratiques Lieu et Dates Les Journées d’Eté se dérouleront du 29 juin au 3 juillet de 9h00 à 17h00 à l’Hôtel Les Vikings au Croisic Éléments remis Supports pédagogiques des formations suivies. Comment s’inscrire ? Hébergement, restauration Les déjeuners sont inclus dans le coût d’inscription. L’hébergement et les repas du soir sont libres et restent à la charge des participants. L’hôtel Les Vikings vous propose des chambres de 80 à 94€ la nuit et un petit déjeuner à 10€. Renseignements au 02 40 62 90 03. En nous retournant ce formulaire d’inscription dûment rempli. Une confirmation vous sera faite à réception. Facturation Organisation matérielle Annulation Nous vous invitons à amener votre ordinateur portable pour la mise en œuvre des applications La facture vous sera adressée accompagnée de la feuille de présence. Au-delà du 31 mai 2015, les frais de participation seront intégralement dus Sur demande, les participants pourront se faire remplacer