CONSULTING I TECHNOLOGY AGILITY I COLLABORATIVE INTELLIGENCE I INNOVATION I PERFORMANCE KEYRUS ACADEMY – CATALOGUE DE FORMATIONS 2015 / FORMATIONS STATISTIQUES ET DATA SCIENCE Janvier 2015 (Version 15.01_01) © Keyrus – Tous droits réservés OFFRE DE FORMATION DE KEYRUS Informations clés / Une offre de formation dédiée aux outils et méthodes du marché de la Business Intelligence, de l’Analytique et la Data Science / Chiffres clés / 3 centres de formations en France (Paris, Lyon et Aix-en-Provence) / + de 15 ans d'expérience / Un catalogue de plus de 100 séminaires et stages de formation spécialisés / Un équipe de plus de 20 formateurs experts / + de 1 000 jours de formations dispensés en 2014 / Nos atouts / Un centre de formation agréé par l’Etat (n°11 92 16285 92) / Une équipe de formateurs certifiés et collaborant aux projets de la Direction des Opérations de Keyrus / Une expertise technologique et pédagogique / Une démarche qualité rigoureuse / Une assistance pré et post-stage offerte 2 © Keyrus – Tous droits réservés OFFRE DE FORMATION DE KEYRUS Contacts pour les formations Statistiques et Data Science / Vos contacts : Ludovic BINETTE Nicolas MARIVIN Fixe : + 33 1 41 34 10 00 Mobile : +33 (0)6 99 36 03 14 Fixe : + 33 1 41 34 10 00 Mobile: +33 6 98 67 29 58 Keyrus 155 rue Anatole France 92593 Levallois-Perret Cedex France Keyrus 155 rue Anatole France 92593 Levallois-Perret Cedex France Business Analytics Sales Manager [email protected] Responsable de l’Agence Business Analytics [email protected] 3 © Keyrus – Tous droits réservés CATALOGUE DE FORMATIONS L’offre de formations Statistiques et Data Science / MÉTHODOLOGIES STATISTIQUES / OUTILS D'ANALYSE STATISTIQUE / DATA SCIENCE 4 © Keyrus – Tous droits réservés FORMATIONS STATISTIQUES ET DATA SCIENCE Méthodologies statistiques / Liste des formations en méthodologies statistiques : LIBELLÉ DE LA FORMATION CODE DURÉE FRÉQUENCE DMGMT 1 Semestrielle STATD 1 Semestrielle STATINF 2 Semestrielle ANALYSE 2 Bimestrielle Techniques de régression MODEL 2 Bimestrielle Séries temporelles SERTEMP 2 A la demande Techniques de scoring SCOR 2 Trimestrielle Techniques de segmentation SEGM 2 Trimestrielle Data Management Statistiques descriptives Tests statistiques et intervalles de confiance Analyse exploratoire de données 5 © Keyrus – Tous droits réservés MÉTHODOLOGIES STATISTIQUES Data Management (DMGMT) 1 Durée en jour(s) PROGRAMME DE LA FORMATION DMGMT Référence de la formation OBJECTIF PÉDAGOGIQUE L’objectif de la formation DMGMT est de fournir aux participants la connaissance méthodologique pour qualifier et quantifier la qualité d'un ensemble de données et de le préparer en vue d'une analyse statistique. La partie pratique consiste à appréhender les programmes de data management présentés par le formateur. PUBLIC La formation DMGMT est destinée à tout public. Introduction Qualifier le contenu et mesure de la qualité / Les enjeux du Data Management / Nombre d’observations / Les relations entre le client, le statisticien et le data / Gestion des doublons Manager / Valeurs manquantes / Les sources / Valeurs aberrantes / Les livrables / Etude uni-variée / Etude bi-variée Les traitements sur les tables / Conversions Créer et transformer des variables / Filtres / Créer un identifiant / Tris / Créer une variable de rang / Transpositions / Créer une variable de comptage / Concaténations / Regrouper des modalités / Agrégations / Discrétiser une variable / Jointures / Uniformiser / Normaliser PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open) 6 © Keyrus – Tous droits réservés MÉTHODOLOGIES STATISTIQUES Statistiques descriptives (STATD) 1 Durée en jour(s) PROGRAMME DE LA FORMATION STATD Référence de la formation OBJECTIF PÉDAGOGIQUE L’objectif de la formation STATD est de maîtriser les méthodes statistiques permettant de décrire les données de manière synthétiques. A l’issue de cette formation, les participants seront en mesure d’organiser, traiter, analyser et présenter l'information de la manière la plus pertinente. PUBLIC La formation STATD est destinée à tout public. Organiser ses données Représentations graphiques classiques / Tri de la base de données / Diagrammes / Mise en place de filtres / Histogrammes / Sélection de données / Courbes / Boites à moustache (box-plot) Maitriser les fonctions statistiques de base / Indicateurs de distribution : moyenne, médiane, mode, Représentations avancées quantiles,… / Arborescences / Caractéristiques de dispersion : variance et écart-type, / Cartes choroplèthes coefficient de variation, écart absolue, minimum, maximum, / Bulles étendue, intervalle interquartiles / Radars / Intervalles de confiance / Animations / Informations relatives : proportion, erreur relative,… Mieux comprendre les liaisons entre variables / Tableaux de contingence / Etude des corrélations / Régression linéaire PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open) 7 © Keyrus – Tous droits réservés MÉTHODOLOGIES STATISTIQUES Tests statistiques et intervalles de confiance (STATINF) 2 Durée en jour(s) PROGRAMME DE LA FORMATION STATINF Référence de la formation OBJECTIF PÉDAGOGIQUE Introduction Tests d’adéquation / Définitions / Test d’ajustement du Khi -deux / Probabilités élémentaires / Test d’ajustement de Kolmogorov-Smirnov / Statistique paramétrique et non-paramétrique L’objectif de la formation STATINF est de fournir aux participants la connaissance nécessaire pour établir la significativité statistique de tests d’hypothèse et encadrer des estimations au moyen d’intervalles de confiance. / Le théorème central-limite Les intervalles de confiance / Lois usuelles de convergence / Interprétation / Estimation paramétrique / Estimation non-paramétrique Méthodologie de test / Interprétation / Choix de l’hypothèse Déterminer le nombre d’individus à échantillonner / Risque de première et seconde espèce / Influence du nombre d’individus sur la région de / Puissance de test confiance PUBLIC / Formules donnant le nombre d’individus La formation STATINF est destinée à tout public souhaitant établir la validité d’une hypothèse, et aux analystes ou chercheurs désirant publier des mesures de significativité. Comparaison d’échantillons indépendants PRÉ-REQUIS Comparaison d’échantillons appariés Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows et disposer de connaissances élémentaires en mathématique (moyenne, proportion). / Tests d’égalité de moyennes / Tests d’égalité de variance / Cas particulier d’une proportion pour un grand échantillon / Tests d’égalité de moyennes / Tests d’égalité de variance Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open) 8 © Keyrus – Tous droits réservés MÉTHODOLOGIES STATISTIQUES Analyse exploratoire de données (ANALYSE) 2 Durée en jour(s) PROGRAMME DE LA FORMATION ANALYSE Référence de la formation OBJECTIF PÉDAGOGIQUE Introduction Analyse des Correspondances Multiples (ACM) / Contexte et présentation des objectifs / Tableau disjonctif complet / Qualification des données (préparation) / Tableau de Burt / AFC du tableau de Burt L’objectif de la formation ANALYSE est de rendre opérationnelle toute personne rencontrant dans son métier le besoin de comprendre les relations entre un nombre important de variables. Analyse en Composantes Principales (ACP) / Interprétation des axes / Données utilisées / Représentations graphiques associées / Construction des axes / Choix du nombre d’axes Méthode de classification / Interprétation des axes / Arbre de décision / Cercle des corrélations / Représentation des individus dans l’espace factoriel Synthèse et extensions / Projection des individus et variables supplémentaires / ACP avec rotation PUBLIC / Analyse en Composantes Indépendantes (uniquement Analyse Factorielle des Correspondances (AFC) La formation ANALYSE est destinée à tout public. sous R) / Tableau de contingence / Métrique du Chi-deux / Choix du nombre d’axes / Interprétation des axes PRÉ-REQUIS Les participants devront au minimum avoir suivi la formation STATDESC ou justifier d’un niveau de connaissance équivalent à cette formation. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open) 9 © Keyrus – Tous droits réservés MÉTHODOLOGIES STATISTIQUES Techniques de régression (MODEL) 2 Durée en jour(s) PROGRAMME DE LA FORMATION MODEL Référence de la formation OBJECTIF PÉDAGOGIQUE Introduction Analyse de la variance / Expliquer ou prévoir / Tests de comparaison / Choix du modèle en fonction de données / Notion d’interaction / Variables quantitatives et qualitatives L’objectif de la formation MODEL est de fournir aux participants la connaissance suffisante des techniques de modélisation afin de pouvoir répondre à des problèmes concrets (explication, prévision de différents phénomènes,…). La régression simple / La méthode des moindres carrées Les autres régressions / Validation du modèle / Régression linéaire généralisé / Tests de significativité / Régression logistique / Analyse des résidus La régression multiple / Visualisation des individus et des variables PUBLIC La formation MODEL s’adresse à toute personne souhaitant construire un modèle permettant de répondre à un problème concret. / Modélisation : estimation des paramètres, tests, qualité du modèle / Sélection des variables : méthode de régression pas à pas, choix du « meilleur modèle PRÉ-REQUIS Les participants devront au minimum avoir suivi la formation STATDESC ou justifier d’un niveau de connaissance équivalent à cette formation. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open) 10 © Keyrus – Tous droits réservés MÉTHODOLOGIES STATISTIQUES Séries temporelles (SERTEMP) 2 Durée en jour(s) PROGRAMME DE LA FORMATION SERTEMP Référence de la formation OBJECTIF PÉDAGOGIQUE L’objectif de la formation SERTEMP est de fournir aux participants la connaissance nécessaire pour analyser des données temporelles et se servir de leurs régularités à des fins d’interpolation et de prévision. Introduction Méthode de Box et Jenkins / Présentation des séries temporelles / Processus Auto-régressif (AR) / Représentation graphique / Processus Moyenne Mobile (MA) / La méthodologie SEMMA / Identification d’un modèle ARMA par étude des / Points forts / Points faibles corrélogrammes / Estimation des paramètres ARMA Modèles de composition / Modèle additif Traitement des cas non-stationnaires / Modèle multiplicatif / Par différenciation : ARIMA, SARIMA / Lissage par moyennes mobiles / Traitement de l’hétéroscédasticité : processus ARCH, / Lissage exponentiel GARCH / Méthode de Holt-Winters PUBLIC La formation SERTEMP s’adresse à toute personne souhaitant étudier l’évolution passée de grandeurs numériques au cours du temps afin d’en prévoir le comportement futur. / Calcul des variations saisonnières / Série corrigée des variations saisonnières Fondamentaux d’analyse stochastique / Processus stochastique / Auto-corrélation, auto-covariance PRÉ-REQUIS / Stationnarité / Hétéroscédasticité Les participants devront au minimum avoir suivi la formation STATDESC ou justifier d’un niveau de connaissance équivalent à cette formation. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open) 11 © Keyrus – Tous droits réservés MÉTHODOLOGIES STATISTIQUES Techniques de scoring (SCOR) 2 Durée en jour(s) PROGRAMME DE LA FORMATION SCOR Référence de la formation OBJECTIF PÉDAGOGIQUE Introduction Evaluation de la performance / Types de score : octroi, appétence, churn / Matrice de confusion / Finalité : la carte de score / Courbes de lift, ROC / Interprétation probabiliste / Robustesse / Suivi du modèle : structure de la population, stabilité par L’objectif de la formation SCOR est de fournir aux participants la connaissance nécessaire pour concevoir et implémenter des modèles statistiques de classification aboutissant à la création d’un score. PUBLIC La formation SCOR est destinée statisticiens et aux dataminers. aux variable de score Préparation des données / Définition du périmètre et choix des données / Identifier les variables discriminantes Communication des résultats / Faut-il discrétiser ? Si oui, comment ? / Importance des variables dans le score / Traitement des valeurs manquantes / Création d’une grille de score / Echantillon d’apprentissage/test / Mise en production Création du score Cas particuliers courants / Analyse discriminante / Cas où l’événement à prédire est rare / Régression logistique / Cas où l’événement à prédire possède plusieurs modalités / Arbres de décision / Cas où les coûts de mauvaise affectation ne sont pas / Combinaison de modèles symétriques PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows et disposer de connaissances élémentaires en mathématique (moyenne, proportion). Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open) 12 © Keyrus – Tous droits réservés MÉTHODOLOGIES STATISTIQUES Techniques de segmentation (SEGM) 2 Durée en jour(s) PROGRAMME DE LA FORMATION SEGM Référence de la formation OBJECTIF PÉDAGOGIQUE Introduction Affecter les nouveaux individus / Méthodologie de mise en œuvre / Si les données utilisées pour la segmentation sont / Vocabulaire usuel disponibles / Si les données utilisées pour la segmentation ne sont pas L’objectif de la formation SEGM est de fournir aux participants la connaissance nécessaire pour segmenter des individus en segments optimisant des critères d’homogénéité et de différenciation. Définir le périmètre disponibles / Quels individus ? / Mettre en production une segmentation / Définir la similarité entre individus / Quelles variables intégrer ? Cas pratiques usuels / Quelles transformations réaliser avant la segmentation ? / Segmentation client basée sur récence, fréquence et montant / Segmentation client basée sur le comportement de Réaliser le regroupement / Stratégie hiérarchique vs partitionnement PUBLIC / Classification ascendante hiérarchique / K-moyennes La formation SEGM est destinée statisticiens et aux dataminers. aux consommation / Intégrer une dimension temporelle dans une segmentation / Intégrer des données textuelles dans une segmentations / Choix du nombre de segments Caractériser les segments obtenus / Qualité globale d’une segmentation PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows et disposer de connaissances élémentaires en mathématique (moyenne, proportion). / Interpréter les segments / Communiquer les résultats Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open) 13 © Keyrus – Tous droits réservés FORMATIONS STATISTIQUES ET DATA SCIENCE Outils d'analyse statistique / Liste des formations sur les outils d'analyse statistique : LIBELLÉ DE LA FORMATION CODE DURÉE FRÉQUENCE JMP – Initiation JMP 2 A la demande Logiciel R – Découverte RINIT 2 Trimestrielle Logiciel R – Etudes et modélisation statistiques RSTAT 2 Trimestrielle Logiciel R – Programmation avancée RPROG 2 Trimestrielle Logiciel R – Data Management NOUVEAU RDM 2 Trimestrielle Logiciel R – Data Viz avec Shiny NOUVEAU RDVIZ 2 Trimestrielle IBM SPSS Statistics – Initiation SPSSSTAT 2 A la demande IBM SPSS Modeler – Initiation SPSSMOD 2 A la demande Remarque : Les formations SAS proposées par Keyrus Academy sont disponibles dans un catalogue dédié aux outils et solutions SAS. 14 © Keyrus – Tous droits réservés OUTILS D'ANALYSE STATISTIQUE JMP – Initiation (JMP) 2 Durée en jour(s) PROGRAMME DE LA FORMATION JMP Référence de la formation OBJECTIF PÉDAGOGIQUE L’objectif de la formation JMP est de fournir aux participants la connaissance nécessaire pour accéder, analyser et visualiser des données sous JMP. Découverte de JMP Manipulation sur les tables et tableaux / Introduction / Tri / JMP starter / Extraction / Fenêtre d’accueil JMP / Jointure / Didacticiels / Statistiques descriptives / Indices statistiques / Tableaux croisés dynamiques Chargement des données Exploration graphique des données / Ouverture d’une base MS Excel / Diagrammes / Ouverture d’une base TXT / Nuages de points / Présentation base JMP / Outils graphiques / Graphiques en bulles PUBLIC La formation JMP est destinée aux programmeurs SAS, aux créateurs de rapports et aux statisticiens. Manipulation sur les colonnes et les lignes / Mosaïques / Actions possibles sur colonnes et/ou sur lignes / Arbres de décision / Actions spécifiques aux lignes / Manipulations de base sur graphiques Sauvegarde des résultats / Journal / Projet PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. Technologie(s) mis(es) en œuvre : JMP 9 et + 15 © Keyrus – Tous droits réservés OUTILS D'ANALYSE STATISTIQUE Logiciel R – Découverte (RINIT) 2 Durée en jour(s) PROGRAMME DE LA FORMATION RINIT Référence de la formation OBJECTIF PÉDAGOGIQUE L’objectif de la formation RINIT est de fournir aux participants la connaissance des principes fondamentaux du langage R et des fonctions usuelles pour importer, manipuler, analyser et visualiser des données. Introduction Graphiques / Présentation générale / Graphiques usuels : Nuage de points, histogrammes, / Concepts fondamentaux diagrammes / Points forts et points faibles / Options graphiques Prise en main Statistiques / Présentation de l’interface / Statistiques univariées / Première prise en main / Tableaux croisés / Installer et charger des packages / Intégration des données Programmation / Manipulation des vecteurs/matrices / Fonctions / Structures logiques PUBLIC La formation RINIT s’adresse à tout public souhaitant réaliser des traitements de données sous R. Objets de R / Tableaux Présentation des résultats/sorties / Data.frames / Création de tables / Reporting Gestion des données PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. / Extraction de sous-tables Extensions / Fusion, tri / Quelques packages usuels et comment les utiliser / Gestion des doublons / Améliorer sa productivité grâce aux interfaces de / Gestion des caractères et des dates développement Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) 16 © Keyrus – Tous droits réservés OUTILS D'ANALYSE STATISTIQUE Logiciel R – Etude et modélisation statistiques (RSTAT) 2 Durée en jour(s) PROGRAMME DE LA FORMATION RSTAT Référence de la formation OBJECTIF PÉDAGOGIQUE Introduction Techniques de segmentation /Rappel des fondamentaux de R /K-moyennes /Classification ascendante hiérarchique /Cartes de Kohonen Analyses exploratoires /Statistiques univariées L’objectif de la formation RSTAT est de fournir aux participants la connaissance pratique des fonctions et packages R utilisés dans la réalisation d’études ou de modèles statistiques. /Statistiques bivariées Simulation /Analyses factorielles (ACM, AFC, ACM) /Echantillonnage /Boostrapping Tests et intervalles de confiance /Méthode de Monte Carlo par chaînes de Markov /Echantillons indépendants /Echantillons appariés /Tests d’adéquation PUBLIC Modélisation statistique La formation RSTAT s’adresse aux chargés d’études et statisticiens. /Régression linéaire / ANOVA /Régression logistique /Sélection automatique de variables /Méthodes de régularisation : PLS, Lasso PRÉ-REQUIS Les participants devront avoir un niveau sous R équivalent à celui de la formation RINIT, ainsi qu’une connaissance des principes généraux des méthodes de modélisation statistique. /Arbres de décision /Forêts aléatoires /SVM Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) 17 © Keyrus – Tous droits réservés OUTILS D'ANALYSE STATISTIQUE Logiciel R – Programmation avancée (RPROG) 2 Durée en jour(s) PROGRAMME DE LA FORMATION RPROG Référence de la formation OBJECTIF PÉDAGOGIQUE Introduction Surveiller l’usage des ressources / Présentation générale / Monitorer l’usage mémoire / Concepts fondamentaux / Profiling et benchmarking / Points forts et points faibles Entrées/sorties L’objectif de la formation RPROG est de fournir aux participants la compétence de développement R. Typage des données / Les devices graphiques / Types de base / Générer des rapports / Programmation objet / Lire et écrire dans un SGBD / Lire et écrire dans un fichier propriétaire (Excel, SAS, Développer ses propres fonctions SPSS…) / Structure d’une fonction PUBLIC La formation RPROG s’adresse aux personnes amenées à développer de manière régulière sous R ou chargées d’administrer des scripts R en production. PRÉ-REQUIS Les participants devront avoir un niveau sous R équivalent à celui de la formation RINIT. / Arguments Automatiser R / Valeur retour /Séquencer des scripts / Scoping /Utiliser R en mode batch / Opérateurs de fonctions Construire son propre package Ecrire un code performant et maintenable / Création / Conventions de nommage / Documentation / Vectoriser / Automatisation des tests / Factoriser / Déploiement / Sauvegarder et rediriger les logs Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) 18 © Keyrus – Tous droits réservés OUTILS D'ANALYSE STATISTIQUE Logiciel R – Data Management (RDM) NOUVEAU 2 Durée en jour(s) PROGRAMME DE LA FORMATION RDM Référence de la formation OBJECTIF PÉDAGOGIQUE Acquérir les compétences fondamentales en programmation R dans le domaine de la gestion de données. Savoir manipuler et exploiter des données digitales structurées et semi-structurées. Connaitre les standards technologiques d’échange de données digitales tels que JSON. Introduction Traitement et manipulation des données / Rappel des enjeux et des concepts fondamentaux de la / Manipulation des données : sélection de lignes/colonnes, gestion de données gestion de variables (conversion de types, / Focus sur les spécificités des données digitales transformation,…), tris, agrégation,… / Concaténation et fusion de données / Transposition/rotation des données Intégration des données] / Lecture/écriture de fichiers (CSV, XML,…) / Connexion à des bases de données relationnelles (Oracle, Travaux pratiques MySQL, PostgreSQL,…) / Production d’indicateurs statistiques (Top 10 par mois,…) / Manipulation de données JSON sur le téléchargement de packages R à partir des logs / Interrogation de données digitales structurées avec structurées disponibles sur le site Web du CRAN Google Analytics API / Constitution d’une base de données d’informations météorologiques à partir des données JSON disponibles via PUBLIC le site OpenWeatherMap Mise en qualité des données La formation RDM est destiné aux statisticiens et aux informaticiens souhaitant acquérir les compétences requises pour la gestion de données digitales. / Mesure de la qualité de données : statistiques descriptives, détection des doublons, des valeurs / Réalisation d’analyse d’audience de sites Web via l’intégration de données Google Analytics manquantes/atypiques,… / Nettoyage de données : redressement, traitement des données manquantes/atypiques,… PRÉ-REQUIS Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) 19 © Keyrus – Tous droits réservés OUTILS D'ANALYSE STATISTIQUE Logiciel R – Data Visualization avec Shiny (RDVIZ) NOUVEAU 2 Durée en jour(s) PROGRAMME DE LA FORMATION RDVIZ Référence de la formation Introduction Développement d'une application Web avec Shiny / Présentation des concepts fondamentaux de la / Présentation de l'application Web à développer visualisation de données / Construction de l'interface graphique de base / Panorama des modes de visualisation de données / Mise en œuvre d'un tableau de restitution des données / Focus sur les formes de représentations spécialisées et/ou / Enrichissement de l'interface avec plusieurs restitutions sous Maitriser le développement d’applications Web avec l’environnement de développement R et le package Shiny. innovantes : diagramme de Sankey,,… forme d'onglet / Présentation du « Data Journalisme » ou comment / Mise en œuvre de restitutions graphiques avec ggplot2 Disposer d’une connaissance avancée des bibliothèques graphiques majeures et savoir les intégrer au sein d’applications Web orientées visualisation de données. attractive pour le lecteur OBJECTIF PÉDAGOGIQUE Appréhender les concepts fondamentaux, les bonnes pratiques et les représentations innovantes de visualisation de données. PUBLIC La formation RDVIZ est destinée aux statisticiens et aux informaticiens souhaitant découvrir et maitriser les méthodes et techniques de visualisation de données. transformer les données en une visualisation graphique Data Visualization avec Shiny / Techniques d’Intégration de bibliothèques Javascript au Premier pas avec le package Shiny (langage R) sein d’une application Shiny / Présentation du package R et des concepts / Mise en œuvre d’outils de visualisation de données via fondamentaux associés l’intégration de bibliothèques graphiques (D3.js, googleVis, / Focus sur les interfaces graphiques (UI.r) Chart.js,…) / Gestion des interactions entre interface et moteur de traitements R Travaux pratiques / Fonctionnalités de deboggage / Mise en œuvre d’un baromètre visuel de données d’informations et de critiques de films PRÉ-REQUIS / Représentation de parcours clients sur un site Web via un diagramme de Sankey Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) et bibliothèques Javascript (D3.js, Chart.js,…) 20 © Keyrus – Tous droits réservés OUTILS D'ANALYSE STATISTIQUE IBM SPSS Statistics – Initiation (SPSSSTAT) 2 Durée en jour(s) PROGRAMME DE LA FORMATION SPSSSTAT Référence de la formation OBJECTIF PÉDAGOGIQUE Introduction Gestion des données / Présentation générale de l'outil / Création de nouvelles variables / Points forts et points faibles / Recodage - discrétisation / Sélectionner des lignes avec Select Cases L’objectif de la formation SPSSSTAT est de fournir aux participants la connaissance nécessaire pour accéder, analyser, manipuler des données hétérogènes (SPSS et autres formats) et présenter des résultats en utilisant l’interface IBM SPSS Statistics. Prise en main / Fusions / agrégation / Editeur de données / Fenêtre de résultats Elaboration de rapports / Affichage des variables / Tableaux de fréquences / Tableaux croisés Importer des données / Diagrammes / Ouverture directe / Personnalisation des graphes / Requêtes PUBLIC / Lecture de données ASCII La formation SPSSSTAT est destinée aux statisticiens et aux dataminers. PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. Technologie(s) mis(es) en œuvre : IBM SPSS Statistics 19 et + 21 © Keyrus – Tous droits réservés OUTILS D'ANALYSE STATISTIQUE IBM SPSS Modeler – Initiation (SPSSMOD) 2 Durée en jour(s) PROGRAMME DE LA FORMATION SPSSMOD Référence de la formation OBJECTIF PÉDAGOGIQUE L’objectif de la formation SPSSMOD est de fournir aux participants la connaissance nécessaire pour accéder, analyser, manipuler des données hétérogènes (SPSS et autres formats) et présenter des résultats en utilisant l’interface IBM SPSS Modeler. Introduction Gestion des données / Présentation générale de l'outil / Création d’indicateurs / Introduction au Datamining / Valeurs globales / La méthodologie CRISP DM / Langage de manipulation des données / Points forts et points faibles / Fusion, concaténation et agrégation Prise en main Segmentation / Présentation de l’interface / Le nœud k-means / Sources de données / Le nœud Two Step / Typage / Le nœud Kohonen / Filtre et échantillon Modélisation PUBLIC La formation SPSSMOD est destinée aux statisticiens et aux dataminers. Audit et qualité des données / Les nœuds de modélisation / Audit / Arbres de décision / Remplacement des données manquantes / Régression / Restitution graphique / Comparaison de modèles Exportation de données PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. Technologie(s) mis(es) en œuvre : IBM SPSS Modeler 14 et + 22 © Keyrus – Tous droits réservés FORMATIONS STATISTIQUES ET DATA SCIENCE Data Science / Liste des formations Data Science : LIBELLÉ DE LA FORMATION CODE DURÉE FRÉQUENCE Introduction à la Data Science NOUVEAU DSINIT 1 Bimestrielle Acquisition et exploitation de données digitales NOUVEAU DIGIT 2 A la demande ML 2 Trimestrielle TM 2 Semestrielle Machine Learning Text Mining NOUVEAU NOUVEAU 23 © Keyrus – Tous droits réservés DATA SCIENCE Introduction à la « Data Science » (DSINT) NOUVEAU 1 DSINT Durée en jour(s) Référence de la formation PROGRAMME DE LA FORMATION Introduction Les métiers de la DATA / Présentation générale de la « Data Science » / Plus qu’un métier, une équipe : Définition et prérogatives / Différences majeures entre les approches « Data des différents métiers de la DATA (Data Scientist, Data Comprendre les concepts de la « Data Science » et les différences majeures avec les approches « Data Mining » et « Big Data ». Science », « Data Mining » et « Big Data » Engineer, Chief Data Officer,…) De nouvelles données pour de nouveaux challenges équipe « Data Science » Disposer d’une connaissance générale sur les méthodologies et technologies liées à la « Data Science ». / Données textuelles / Focus sur le métier de « Data Scientist » OBJECTIF PÉDAGOGIQUE Identifier les compétences et les activités associées aux métiers de la « DATA ». / Présentation des différents modèles d’organisation d’un / Données digitales (logs Web, réseaux sociaux,…) Panorama des outils et solutions orientés « Data Science » / Open Data / Présentation des solutions « open source » vs commerciales Présentation de cas d’usages / Comparatifs des solutions sur base des critères suivants : / Connaissance Client 360° PUBLIC / Monétisation/valorisation de la donnée / Internet des Objets La formation DSINT est destinée à toute personne souhaitant appréhender les concepts et enjeux de la « Data Science ». fonctionnalités analytiques, volumes de données, socle technologique (Apache Hadoop ou non) et complexité de mise en œuvre / Focus sur le langage R et son écosystème de packages Les activités et méthodes liées à la « Data Science » / Data Science Management / Machine Learning PRÉ-REQUIS / Text Mining / Visualisation de données Aucun pré-requis. Pas de technologie, ni de langage abordé 24 © Keyrus – Tous droits réservés DATA SCIENCE Acquisition et exploitation des données digitales (DIGIT) NOUVEAU 2 DIGIT Durée en jour(s) Référence de la formation OBJECTIF PÉDAGOGIQUE Maitriser les principes et concepts fondamentaux d’acquisition et d’exploitation de données digitales. Disposer de connaissances fondamentales en programmation Python, langage de référence pour les activités de Web Crawling/Scraping. Maitriser les techniques de Web Crawling/Scraping et de récupération via les API Web de données provenant des réseaux sociaux. PUBLIC PROGRAMME DE LA FORMATION Principe d’acquisition des données digitales Manipulation de données digitales avec Python / Présentation des concepts fondamentaux d’acquisition / Mise en œuvre des techniques de Web Crawling/Scraping de données digitales : Web Crawling (exploration de sites avec le langage Python et la bibliothèque « Beautiful Soup » Web), Web Scraping (extraction de contenu Web) et / Présentation et mise en œuvre de Scrapy, framework données de réseaux sociaux Open Source dédié aux activités de crawling et scraping de sites Web / Extraction de données depuis des logs Web Programmation Python / Présentation générale du langage Python / Installation de Python et présentation de l’environnement Acquisition de données via des API Web de développement IDLE / Acquisition de données via les API des réseaux sociaux / Bases syntaxiques : syntaxe, conventions de codage, (Twitter, Facebook,…) règles de nommage, affectation, commentaires,… / Focus et démonstration des packages R dédiés aux / Présentation/manipulation des types de données réseaux sociaux : twitteR, Rfacebook,… / Contrôle du flux d'exécution : structure La formation DIGIT est destiné aux profils ayant des connaissances avancées en programmation souhaitant acquérir les compétences requises pour l’acquisition et l’exploitation de données digitales. PRÉ-REQUIS Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). Avoir des notions en langage HTML/XML. conditionnelle (if/elif/else), opérateurs logiques et de Travaux pratiques comparaison, boucles while/for, instructions / Récupération de la liste de membres d’un groupe donnée break/continue,… sur la plateforme « Meetup.com » / Importation et utilisation des modules les plus courants / Enrichissement de la connaissance des membres d’un (math, sys, calendar,…) groupe Meetup avec les informations disponibles sur les / Expressions régulières (module « re ») et parsing de chaînes réseaux sociaux de caractères / Gestion d’accès aux données Technologie(s) mis(es) en œuvre : Python et R (ou Revolution R Open) 25 © Keyrus – Tous droits réservés DATA SCIENCE Machine Learning (ML) NOUVEAU 2 ML Durée en jour(s) Référence de la formation PROGRAMME DE LA FORMATION / Arbre de décision et agrégation Introduction OBJECTIF PÉDAGOGIQUE / Présentation des concepts fondamentaux / Bagging et Boosting / Contexte et enjeux de l’essor actuel du Machine Learning / Mise en œuvre : Elagage et apport du bagging/boosting / Présentation de cas d’usage et de leurs valeurs ajoutées Appréhender l’ensemble des méthodologies de Machine Learning au travers l’implémentation de différents cas d’étude dans un contexte de forte volumétrie de données. Maitriser la validation des modèles et éviter les erreurs d’interprétations. Modélisation supervisée classique / Définition « algorithme d’apprentissage » / Cas de test d’introduction avec les modélisations classiques / Définition de l’apprentissage automatique versus un arbre de décision / Support Vector Machine Modélisation non supervisée / K-means clustering / Carte de Kohonen / Ecriture formelle d’une problématique de Machine Learning PUBLIC La formation ML est destinée aux statisticiens (contexte de forte volumétrie de données) et aux informaticiens souhaitant découvrir les algorithmes d’apprentissage et leurs applications. PRÉ-REQUIS Connaissance minimale en mathématiques correspondant à un niveau BAC+2. Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). / Les modèles « classiques » : Régression linéaire/logistique Réduction de dimension et Naïve Bayes / Analyse en composantes principales / Validation : Validation croisée, courbe ROC et complexité / Algorithmes du type « Stepwise » / Retour au cas de test et conclusion sur le choix du modèle / Via les critères : khi2 et gain d’information Modélisation supervisée évoluée Travaux pratiques / Réseau de neurones / A partir de données « Open Data » (SNCF et INSEE), mise / Perceptron multi-couches (PMC) en œuvre et comparaison de performances d’algorithmes / Mise en œuvre et focus sur les problèmes de taille prédictifs avancés destinés à prédire le nombre quotidien d’échantillons versus le nombre de couches de voyageurs montant en gare (transilien). / K-nearest neighbor Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) 26 © Keyrus – Tous droits réservés DATA SCIENCE Text Mining (TM) NOUVEAU 2 TM Durée en jour(s) Référence de la formation OBJECTIF PÉDAGOGIQUE PROGRAMME DE LA FORMATION Introduction Analyse exploratoire des textes / Origine et développement des méthodes de Text mining / Analyse des correspondances et analyse sémantique / Apport du Text mining et intérêt par rapport à des logiciels latente (avec pondération des termes) Appréhender l’ensemble des méthodes de valorisation des données non structurées. Maitriser les techniques de préparation et de visualisation des données textuelles. Maitriser les différentes techniques d’analyses (analyse descriptive, analyse exploratoire et classification) de données textuelles. PUBLIC La formation TM est destinée aux statisticiens et aux informaticiens souhaitant découvrir et maitriser les méthodes de valorisation des données non structurées. d’aide à la lecture de texte ou à la recherche par mot clés / Interprétation des résultats : lecture des graphiques, / Différents types de corpus de texte interprétation des axes,… / Comparaison approche linguistique (traitement du / Clustering : calcul de distances et CAH langage naturel) vs approche statistique (« sac de mots ») / Description des classes obtenues : termes discriminants, textes représentatifs,… Pre-processing des textes / Intérêt du preprocessing Classification de textes / Filtrage des « mots-outils » (« stopwords ») / Objectif de la classification / Lemmatisation versus racinisation / Choix des prédicteurs : sélection des termes vis à vis d'un / Pré-traitements de mise en forme critère (score du khi2, TF-IDF) et utilisation de la fréquence / Représentations du texte : sacs de mots, bigrammes,,… / Filtrage des termes peu fréquents Analyse descriptive du corpus / Analyse à plat : termes les plus fréquents, hapax, nuage PRÉ-REQUIS Connaissance minimale en mathématiques correspondant à un niveau BAC+2. Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). de mots,… / Analyse croisée : spécificités lexicales, nuage de mots avec discrimination,… / Termes co-occurrents des termes vs coordonnées de l'analyse sémantique/analyse des correspondances / Modèles de classification : SVM, classification bayésienne, arbre et random forest / Indicateurs de qualité du modèle Travaux pratiques / Notation de la qualité et de la satisfaction de restaurants via l’analyse textuelle d’avis clients Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) et R.TeMiS 27