catalogue de formations 2015 / formations statistiques et data science

publicité
CONSULTING I TECHNOLOGY
AGILITY I COLLABORATIVE INTELLIGENCE I INNOVATION I PERFORMANCE
KEYRUS ACADEMY – CATALOGUE DE FORMATIONS 2015
/ FORMATIONS STATISTIQUES ET DATA SCIENCE
Janvier 2015 (Version 15.01_01)
© Keyrus – Tous droits réservés
OFFRE DE FORMATION DE KEYRUS
Informations clés
/ Une offre de formation dédiée aux outils et méthodes du marché de la Business Intelligence, de
l’Analytique et la Data Science
/ Chiffres clés
/
3 centres de formations en France (Paris, Lyon et Aix-en-Provence)
/
+ de 15 ans d'expérience
/
Un catalogue de plus de 100 séminaires et stages de formation spécialisés
/
Un équipe de plus de 20 formateurs experts
/
+ de 1 000 jours de formations dispensés en 2014
/ Nos atouts
/
Un centre de formation agréé par l’Etat (n°11 92 16285 92)
/
Une équipe de formateurs certifiés et collaborant aux projets de la Direction des Opérations de Keyrus
/
Une expertise technologique et pédagogique
/
Une démarche qualité rigoureuse
/
Une assistance pré et post-stage offerte
2
© Keyrus – Tous droits réservés
OFFRE DE FORMATION DE KEYRUS
Contacts pour les formations Statistiques et Data Science
/ Vos contacts :
Ludovic BINETTE
Nicolas MARIVIN
Fixe : + 33 1 41 34 10 00
Mobile : +33 (0)6 99 36 03 14
Fixe : + 33 1 41 34 10 00
Mobile: +33 6 98 67 29 58
Keyrus
155 rue Anatole France
92593 Levallois-Perret Cedex France
Keyrus
155 rue Anatole France
92593 Levallois-Perret Cedex France
Business Analytics Sales Manager
[email protected]
Responsable de l’Agence Business Analytics
[email protected]
3
© Keyrus – Tous droits réservés
CATALOGUE DE FORMATIONS
L’offre de formations Statistiques et Data Science
/ MÉTHODOLOGIES STATISTIQUES
/ OUTILS D'ANALYSE STATISTIQUE
/ DATA SCIENCE
4
© Keyrus – Tous droits réservés
FORMATIONS STATISTIQUES ET DATA SCIENCE
Méthodologies statistiques
/ Liste des formations en méthodologies statistiques :
LIBELLÉ DE LA FORMATION
CODE
DURÉE
FRÉQUENCE
DMGMT
1
Semestrielle
STATD
1
Semestrielle
STATINF
2
Semestrielle
ANALYSE
2
Bimestrielle
Techniques de régression
MODEL
2
Bimestrielle
Séries temporelles
SERTEMP
2
A la demande
Techniques de scoring
SCOR
2
Trimestrielle
Techniques de segmentation
SEGM
2
Trimestrielle
Data Management
Statistiques descriptives
Tests statistiques et intervalles de confiance
Analyse exploratoire de données
5
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES
Data Management (DMGMT)
1
Durée en jour(s)
PROGRAMME DE LA FORMATION
DMGMT
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation DMGMT est de
fournir aux participants la connaissance
méthodologique pour qualifier et quantifier
la qualité d'un ensemble de données et de
le préparer en vue d'une analyse statistique.
La partie pratique consiste à appréhender
les programmes de data management
présentés par le formateur.
PUBLIC
La formation DMGMT est destinée à tout
public.
Introduction
Qualifier le contenu et mesure de la qualité
/ Les enjeux du Data Management
/ Nombre d’observations
/ Les relations entre le client, le statisticien et le data
/ Gestion des doublons
Manager
/ Valeurs manquantes
/ Les sources
/ Valeurs aberrantes
/ Les livrables
/ Etude uni-variée
/ Etude bi-variée
Les traitements sur les tables
/ Conversions
Créer et transformer des variables
/ Filtres
/ Créer un identifiant
/ Tris
/ Créer une variable de rang
/ Transpositions
/ Créer une variable de comptage
/ Concaténations
/ Regrouper des modalités
/ Agrégations
/ Discrétiser une variable
/ Jointures
/ Uniformiser
/ Normaliser
PRÉ-REQUIS
Les participants devront être familiers avec
des logiciels de bureautique sous Microsoft
Windows.
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
6
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES
Statistiques descriptives (STATD)
1
Durée en jour(s)
PROGRAMME DE LA FORMATION
STATD
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation STATD est de
maîtriser
les
méthodes
statistiques
permettant de décrire les données de
manière synthétiques.
A l’issue de cette formation, les participants
seront en mesure d’organiser, traiter,
analyser et présenter l'information de la
manière la plus pertinente.
PUBLIC
La formation STATD est destinée à tout
public.
Organiser ses données
Représentations graphiques classiques
/ Tri de la base de données
/ Diagrammes
/ Mise en place de filtres
/ Histogrammes
/ Sélection de données
/ Courbes
/ Boites à moustache (box-plot)
Maitriser les fonctions statistiques de base
/ Indicateurs de distribution : moyenne, médiane, mode,
Représentations avancées
quantiles,…
/ Arborescences
/ Caractéristiques de dispersion : variance et écart-type,
/ Cartes choroplèthes
coefficient de variation, écart absolue, minimum, maximum, / Bulles
étendue, intervalle interquartiles
/ Radars
/ Intervalles de confiance
/ Animations
/ Informations relatives : proportion, erreur relative,…
Mieux comprendre les liaisons entre variables
/ Tableaux de contingence
/ Etude des corrélations
/ Régression linéaire
PRÉ-REQUIS
Les participants devront être familiers avec
des logiciels de bureautique sous Microsoft
Windows.
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
7
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES
Tests statistiques et intervalles de confiance (STATINF)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
STATINF
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Tests d’adéquation
/ Définitions
/ Test d’ajustement du Khi -deux
/ Probabilités élémentaires
/ Test d’ajustement de Kolmogorov-Smirnov
/ Statistique paramétrique et non-paramétrique
L’objectif de la formation STATINF est de
fournir aux participants la connaissance
nécessaire pour établir la significativité
statistique de tests d’hypothèse et encadrer
des estimations au moyen d’intervalles de
confiance.
/ Le théorème central-limite
Les intervalles de confiance
/ Lois usuelles de convergence
/ Interprétation
/ Estimation paramétrique
/ Estimation non-paramétrique
Méthodologie de test
/ Interprétation
/ Choix de l’hypothèse
Déterminer le nombre d’individus à échantillonner
/ Risque de première et seconde espèce
/ Influence du nombre d’individus sur la région de
/ Puissance de test
confiance
PUBLIC
/ Formules donnant le nombre d’individus
La formation STATINF est destinée à tout
public souhaitant établir la validité d’une
hypothèse, et aux analystes ou chercheurs
désirant
publier
des
mesures
de
significativité.
Comparaison d’échantillons indépendants
PRÉ-REQUIS
Comparaison d’échantillons appariés
Les participants devront être familiers avec
des logiciels de bureautique sous Microsoft
Windows et disposer de connaissances
élémentaires en mathématique (moyenne,
proportion).
/ Tests d’égalité de moyennes
/ Tests d’égalité de variance
/ Cas particulier d’une proportion pour un grand échantillon
/ Tests d’égalité de moyennes
/ Tests d’égalité de variance
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
8
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES
Analyse exploratoire de données (ANALYSE)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
ANALYSE
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Analyse des Correspondances Multiples (ACM)
/ Contexte et présentation des objectifs
/ Tableau disjonctif complet
/ Qualification des données (préparation)
/ Tableau de Burt
/ AFC du tableau de Burt
L’objectif de la formation ANALYSE est de
rendre opérationnelle toute personne
rencontrant dans son métier le besoin de
comprendre les relations entre un nombre
important de variables.
Analyse en Composantes Principales (ACP)
/ Interprétation des axes
/ Données utilisées
/ Représentations graphiques associées
/ Construction des axes
/ Choix du nombre d’axes
Méthode de classification
/ Interprétation des axes
/ Arbre de décision
/ Cercle des corrélations
/ Représentation des individus dans l’espace factoriel
Synthèse et extensions
/ Projection des individus et variables supplémentaires
/ ACP avec rotation
PUBLIC
/ Analyse en Composantes Indépendantes (uniquement
Analyse Factorielle des Correspondances (AFC)
La formation ANALYSE est destinée à tout
public.
sous R)
/ Tableau de contingence
/ Métrique du Chi-deux
/ Choix du nombre d’axes
/ Interprétation des axes
PRÉ-REQUIS
Les participants devront au minimum avoir
suivi la formation STATDESC ou justifier d’un
niveau de connaissance équivalent à cette
formation.
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
9
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES
Techniques de régression (MODEL)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
MODEL
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Analyse de la variance
/ Expliquer ou prévoir
/ Tests de comparaison
/ Choix du modèle en fonction de données
/ Notion d’interaction
/ Variables quantitatives et qualitatives
L’objectif de la formation MODEL est de
fournir aux participants la connaissance
suffisante des techniques de modélisation
afin de pouvoir répondre à des problèmes
concrets (explication, prévision de différents
phénomènes,…).
La régression simple
/ La méthode des moindres carrées
Les autres régressions
/ Validation du modèle
/ Régression linéaire généralisé
/ Tests de significativité
/ Régression logistique
/ Analyse des résidus
La régression multiple
/ Visualisation des individus et des variables
PUBLIC
La formation MODEL s’adresse à toute
personne souhaitant construire un modèle
permettant de répondre à un problème
concret.
/ Modélisation : estimation des paramètres, tests, qualité du
modèle
/ Sélection des variables : méthode de régression pas à pas,
choix du « meilleur modèle
PRÉ-REQUIS
Les participants devront au minimum avoir
suivi la formation STATDESC ou justifier d’un
niveau de connaissance équivalent à cette
formation.
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
10
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES
Séries temporelles (SERTEMP)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SERTEMP
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation SERTEMP est de
fournir aux participants la connaissance
nécessaire pour analyser des données
temporelles et se servir de leurs régularités à
des fins d’interpolation et de prévision.
Introduction
Méthode de Box et Jenkins
/ Présentation des séries temporelles
/ Processus Auto-régressif (AR)
/ Représentation graphique
/ Processus Moyenne Mobile (MA)
/ La méthodologie SEMMA
/ Identification d’un modèle ARMA par étude des
/ Points forts / Points faibles
corrélogrammes
/ Estimation des paramètres ARMA
Modèles de composition
/ Modèle additif
Traitement des cas non-stationnaires
/ Modèle multiplicatif
/ Par différenciation : ARIMA, SARIMA
/ Lissage par moyennes mobiles
/ Traitement de l’hétéroscédasticité : processus ARCH,
/ Lissage exponentiel
GARCH
/ Méthode de Holt-Winters
PUBLIC
La formation SERTEMP s’adresse à toute
personne souhaitant étudier l’évolution
passée de grandeurs numériques au cours
du
temps
afin
d’en
prévoir
le
comportement futur.
/ Calcul des variations saisonnières
/ Série corrigée des variations saisonnières
Fondamentaux d’analyse stochastique
/ Processus stochastique
/ Auto-corrélation, auto-covariance
PRÉ-REQUIS
/ Stationnarité
/ Hétéroscédasticité
Les participants devront au minimum avoir
suivi la formation STATDESC ou justifier d’un
niveau de connaissance équivalent à cette
formation.
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
11
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES
Techniques de scoring (SCOR)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SCOR
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Evaluation de la performance
/ Types de score : octroi, appétence, churn
/ Matrice de confusion
/ Finalité : la carte de score
/ Courbes de lift, ROC
/ Interprétation probabiliste
/ Robustesse
/ Suivi du modèle : structure de la population, stabilité par
L’objectif de la formation SCOR est de
fournir aux participants la connaissance
nécessaire pour concevoir et implémenter
des modèles statistiques de classification
aboutissant à la création d’un score.
PUBLIC
La formation SCOR est destinée
statisticiens et aux dataminers.
aux
variable de score
Préparation des données
/ Définition du périmètre et choix des données
/ Identifier les variables discriminantes
Communication des résultats
/ Faut-il discrétiser ? Si oui, comment ?
/ Importance des variables dans le score
/ Traitement des valeurs manquantes
/ Création d’une grille de score
/ Echantillon d’apprentissage/test
/ Mise en production
Création du score
Cas particuliers courants
/ Analyse discriminante
/ Cas où l’événement à prédire est rare
/ Régression logistique
/ Cas où l’événement à prédire possède plusieurs modalités
/ Arbres de décision
/ Cas où les coûts de mauvaise affectation ne sont pas
/ Combinaison de modèles
symétriques
PRÉ-REQUIS
Les participants devront être familiers avec
des logiciels de bureautique sous Microsoft
Windows et disposer de connaissances
élémentaires en mathématique (moyenne,
proportion).
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
12
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES
Techniques de segmentation (SEGM)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SEGM
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Affecter les nouveaux individus
/ Méthodologie de mise en œuvre
/ Si les données utilisées pour la segmentation sont
/ Vocabulaire usuel
disponibles
/ Si les données utilisées pour la segmentation ne sont pas
L’objectif de la formation SEGM est de
fournir aux participants la connaissance
nécessaire pour segmenter des individus en
segments
optimisant
des
critères
d’homogénéité et de différenciation.
Définir le périmètre
disponibles
/ Quels individus ?
/ Mettre en production une segmentation
/ Définir la similarité entre individus
/ Quelles variables intégrer ?
Cas pratiques usuels
/ Quelles transformations réaliser avant la segmentation ?
/ Segmentation client basée sur récence, fréquence et
montant
/ Segmentation client basée sur le comportement de
Réaliser le regroupement
/ Stratégie hiérarchique vs partitionnement
PUBLIC
/ Classification ascendante hiérarchique
/ K-moyennes
La formation SEGM est destinée
statisticiens et aux dataminers.
aux
consommation
/ Intégrer une dimension temporelle dans une segmentation
/ Intégrer des données textuelles dans une segmentations
/ Choix du nombre de segments
Caractériser les segments obtenus
/ Qualité globale d’une segmentation
PRÉ-REQUIS
Les participants devront être familiers avec
des logiciels de bureautique sous Microsoft
Windows et disposer de connaissances
élémentaires en mathématique (moyenne,
proportion).
/ Interpréter les segments
/ Communiquer les résultats
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
13
© Keyrus – Tous droits réservés
FORMATIONS STATISTIQUES ET DATA SCIENCE
Outils d'analyse statistique
/ Liste des formations sur les outils d'analyse statistique :
LIBELLÉ DE LA FORMATION
CODE
DURÉE
FRÉQUENCE
JMP – Initiation
JMP
2
A la demande
Logiciel R – Découverte
RINIT
2
Trimestrielle
Logiciel R – Etudes et modélisation statistiques
RSTAT
2
Trimestrielle
Logiciel R – Programmation avancée
RPROG
2
Trimestrielle
Logiciel R – Data Management NOUVEAU
RDM
2
Trimestrielle
Logiciel R – Data Viz avec Shiny NOUVEAU
RDVIZ
2
Trimestrielle
IBM SPSS Statistics – Initiation
SPSSSTAT
2
A la demande
IBM SPSS Modeler – Initiation
SPSSMOD
2
A la demande
Remarque : Les formations SAS proposées par Keyrus Academy sont disponibles dans un catalogue dédié aux outils et solutions SAS.
14
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE
JMP – Initiation (JMP)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
JMP
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation JMP est de fournir
aux participants la connaissance nécessaire
pour accéder, analyser et visualiser des
données sous JMP.
Découverte de JMP
Manipulation sur les tables et tableaux
/ Introduction
/ Tri
/ JMP starter
/ Extraction
/ Fenêtre d’accueil JMP
/ Jointure
/ Didacticiels
/ Statistiques descriptives
/ Indices statistiques
/ Tableaux croisés dynamiques
Chargement des données
Exploration graphique des données
/ Ouverture d’une base MS Excel
/ Diagrammes
/ Ouverture d’une base TXT
/ Nuages de points
/ Présentation base JMP
/ Outils graphiques
/ Graphiques en bulles
PUBLIC
La formation JMP est destinée aux
programmeurs SAS, aux créateurs de
rapports et aux statisticiens.
Manipulation sur les colonnes et les lignes
/ Mosaïques
/ Actions possibles sur colonnes et/ou sur lignes
/ Arbres de décision
/ Actions spécifiques aux lignes
/ Manipulations de base sur graphiques
Sauvegarde des résultats
/ Journal
/ Projet
PRÉ-REQUIS
Les participants devront être familiers avec
des logiciels de bureautique sous Microsoft
Windows.
Aucune
connaissance
particulière
statistique n'est requise.
Technologie(s) mis(es) en œuvre : JMP 9 et +
15
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE
Logiciel R – Découverte (RINIT)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RINIT
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation RINIT est de fournir
aux participants la connaissance des
principes fondamentaux du langage R et
des fonctions usuelles pour importer,
manipuler, analyser et visualiser des
données.
Introduction
Graphiques
/ Présentation générale
/ Graphiques usuels : Nuage de points, histogrammes,
/ Concepts fondamentaux
diagrammes
/ Points forts et points faibles
/ Options graphiques
Prise en main
Statistiques
/ Présentation de l’interface
/ Statistiques univariées
/ Première prise en main
/ Tableaux croisés
/ Installer et charger des packages
/ Intégration des données
Programmation
/ Manipulation des vecteurs/matrices
/ Fonctions
/ Structures logiques
PUBLIC
La formation RINIT s’adresse à tout public
souhaitant réaliser des traitements de
données sous R.
Objets de R
/ Tableaux
Présentation des résultats/sorties
/ Data.frames
/ Création de tables
/ Reporting
Gestion des données
PRÉ-REQUIS
Les participants devront être familiers avec
des logiciels de bureautique sous Microsoft
Windows.
Aucune
connaissance
particulière
statistique n'est requise.
/ Extraction de sous-tables
Extensions
/ Fusion, tri
/ Quelques packages usuels et comment les utiliser
/ Gestion des doublons
/ Améliorer sa productivité grâce aux interfaces de
/ Gestion des caractères et des dates
développement
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
16
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE
Logiciel R – Etude et modélisation statistiques (RSTAT)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RSTAT
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Techniques de segmentation
/Rappel des fondamentaux de R
/K-moyennes
/Classification ascendante hiérarchique
/Cartes de Kohonen
Analyses exploratoires
/Statistiques univariées
L’objectif de la formation RSTAT est de
fournir aux participants la connaissance
pratique des fonctions et packages R utilisés
dans la réalisation d’études ou de modèles
statistiques.
/Statistiques bivariées
Simulation
/Analyses factorielles (ACM, AFC, ACM)
/Echantillonnage
/Boostrapping
Tests et intervalles de confiance
/Méthode de Monte Carlo par chaînes de Markov
/Echantillons indépendants
/Echantillons appariés
/Tests d’adéquation
PUBLIC
Modélisation statistique
La formation RSTAT s’adresse aux chargés
d’études et statisticiens.
/Régression linéaire / ANOVA
/Régression logistique
/Sélection automatique de variables
/Méthodes de régularisation : PLS, Lasso
PRÉ-REQUIS
Les participants devront avoir un niveau
sous R équivalent à celui de la formation
RINIT, ainsi qu’une connaissance des
principes généraux des méthodes de
modélisation statistique.
/Arbres de décision
/Forêts aléatoires
/SVM
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
17
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE
Logiciel R – Programmation avancée (RPROG)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RPROG
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Surveiller l’usage des ressources
/ Présentation générale
/ Monitorer l’usage mémoire
/ Concepts fondamentaux
/ Profiling et benchmarking
/ Points forts et points faibles
Entrées/sorties
L’objectif de la formation RPROG est de
fournir aux participants la compétence de
développement R.
Typage des données
/ Les devices graphiques
/ Types de base
/ Générer des rapports
/ Programmation objet
/ Lire et écrire dans un SGBD
/ Lire et écrire dans un fichier propriétaire (Excel, SAS,
Développer ses propres fonctions
SPSS…)
/ Structure d’une fonction
PUBLIC
La formation RPROG s’adresse aux
personnes amenées à développer de
manière régulière sous R ou chargées
d’administrer des scripts R en production.
PRÉ-REQUIS
Les participants devront avoir un niveau
sous R équivalent à celui de la formation
RINIT.
/ Arguments
Automatiser R
/ Valeur retour
/Séquencer des scripts
/ Scoping
/Utiliser R en mode batch
/ Opérateurs de fonctions
Construire son propre package
Ecrire un code performant et maintenable
/ Création
/ Conventions de nommage
/ Documentation
/ Vectoriser
/ Automatisation des tests
/ Factoriser
/ Déploiement
/ Sauvegarder et rediriger les logs
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
18
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE
Logiciel R – Data Management (RDM) NOUVEAU
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RDM
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Acquérir les compétences fondamentales
en programmation R dans le domaine de la
gestion de données.
Savoir manipuler et exploiter des données
digitales structurées et semi-structurées.
Connaitre les standards technologiques
d’échange de données digitales tels que
JSON.
Introduction
Traitement et manipulation des données
/ Rappel des enjeux et des concepts fondamentaux de la
/ Manipulation des données : sélection de lignes/colonnes,
gestion de données
gestion de variables (conversion de types,
/ Focus sur les spécificités des données digitales
transformation,…), tris, agrégation,…
/ Concaténation et fusion de données
/ Transposition/rotation des données
Intégration des données]
/ Lecture/écriture de fichiers (CSV, XML,…)
/ Connexion à des bases de données relationnelles (Oracle, Travaux pratiques
MySQL, PostgreSQL,…)
/ Production d’indicateurs statistiques (Top 10 par mois,…)
/ Manipulation de données JSON
sur le téléchargement de packages R à partir des logs
/ Interrogation de données digitales structurées avec
structurées disponibles sur le site Web du CRAN
Google Analytics API
/ Constitution d’une base de données d’informations
météorologiques à partir des données JSON disponibles via
PUBLIC
le site OpenWeatherMap
Mise en qualité des données
La formation RDM est destiné aux
statisticiens et aux informaticiens souhaitant
acquérir les compétences requises pour la
gestion de données digitales.
/ Mesure de la qualité de données : statistiques descriptives,
détection des doublons, des valeurs
/ Réalisation d’analyse d’audience de sites Web via
l’intégration de données Google Analytics
manquantes/atypiques,…
/ Nettoyage de données : redressement, traitement des
données manquantes/atypiques,…
PRÉ-REQUIS
Connaissance de la programmation R
(avoir déjà programmé en mode projet ou
avoir suivi récemment une formation
d’introduction à R).
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
19
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE
Logiciel R – Data Visualization avec Shiny (RDVIZ) NOUVEAU
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RDVIZ
Référence de la formation
Introduction
Développement d'une application Web avec Shiny
/ Présentation des concepts fondamentaux de la
/ Présentation de l'application Web à développer
visualisation de données
/ Construction de l'interface graphique de base
/ Panorama des modes de visualisation de données
/ Mise en œuvre d'un tableau de restitution des données
/ Focus sur les formes de représentations spécialisées et/ou
/ Enrichissement de l'interface avec plusieurs restitutions sous
Maitriser le développement d’applications
Web
avec
l’environnement
de
développement R et le package Shiny.
innovantes : diagramme de Sankey,,…
forme d'onglet
/ Présentation du « Data Journalisme » ou comment
/ Mise en œuvre de restitutions graphiques avec ggplot2
Disposer d’une connaissance avancée des
bibliothèques graphiques majeures et savoir
les intégrer au sein d’applications Web
orientées visualisation de données.
attractive pour le lecteur
OBJECTIF PÉDAGOGIQUE
Appréhender les concepts fondamentaux,
les bonnes pratiques et les représentations
innovantes de visualisation de données.
PUBLIC
La formation RDVIZ est destinée aux
statisticiens et aux informaticiens souhaitant
découvrir et maitriser les méthodes et
techniques de visualisation de données.
transformer les données en une visualisation graphique
Data Visualization avec Shiny
/ Techniques d’Intégration de bibliothèques Javascript au
Premier pas avec le package Shiny (langage R)
sein d’une application Shiny
/ Présentation du package R et des concepts
/ Mise en œuvre d’outils de visualisation de données via
fondamentaux associés
l’intégration de bibliothèques graphiques (D3.js, googleVis,
/ Focus sur les interfaces graphiques (UI.r)
Chart.js,…)
/ Gestion des interactions entre interface et moteur de
traitements R
Travaux pratiques
/ Fonctionnalités de deboggage
/ Mise en œuvre d’un baromètre visuel de données
d’informations et de critiques de films
PRÉ-REQUIS
/ Représentation de parcours clients sur un site Web via un
diagramme de Sankey
Connaissance de la programmation R
(avoir déjà programmé en mode projet ou
avoir suivi récemment une formation
d’introduction à R).
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) et bibliothèques Javascript (D3.js, Chart.js,…)
20
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE
IBM SPSS Statistics – Initiation (SPSSSTAT)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SPSSSTAT
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Gestion des données
/ Présentation générale de l'outil
/ Création de nouvelles variables
/ Points forts et points faibles
/ Recodage - discrétisation
/ Sélectionner des lignes avec Select Cases
L’objectif de la formation SPSSSTAT est de
fournir aux participants la connaissance
nécessaire
pour
accéder,
analyser,
manipuler des données hétérogènes (SPSS
et autres formats) et présenter des résultats
en utilisant l’interface IBM SPSS Statistics.
Prise en main
/ Fusions / agrégation
/ Editeur de données
/ Fenêtre de résultats
Elaboration de rapports
/ Affichage des variables
/ Tableaux de fréquences
/ Tableaux croisés
Importer des données
/ Diagrammes
/ Ouverture directe
/ Personnalisation des graphes
/ Requêtes
PUBLIC
/ Lecture de données ASCII
La formation SPSSSTAT est destinée aux
statisticiens et aux dataminers.
PRÉ-REQUIS
Les participants devront être familiers avec
des logiciels de bureautique sous Microsoft
Windows.
Aucune
connaissance
particulière
statistique n'est requise.
Technologie(s) mis(es) en œuvre : IBM SPSS Statistics 19 et +
21
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE
IBM SPSS Modeler – Initiation (SPSSMOD)
2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SPSSMOD
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation SPSSMOD est de
fournir aux participants la connaissance
nécessaire
pour
accéder,
analyser,
manipuler des données hétérogènes (SPSS
et autres formats) et présenter des résultats
en utilisant l’interface IBM SPSS Modeler.
Introduction
Gestion des données
/ Présentation générale de l'outil
/ Création d’indicateurs
/ Introduction au Datamining
/ Valeurs globales
/ La méthodologie CRISP DM
/ Langage de manipulation des données
/ Points forts et points faibles
/ Fusion, concaténation et agrégation
Prise en main
Segmentation
/ Présentation de l’interface
/ Le nœud k-means
/ Sources de données
/ Le nœud Two Step
/ Typage
/ Le nœud Kohonen
/ Filtre et échantillon
Modélisation
PUBLIC
La formation SPSSMOD est destinée aux
statisticiens et aux dataminers.
Audit et qualité des données
/ Les nœuds de modélisation
/ Audit
/ Arbres de décision
/ Remplacement des données manquantes
/ Régression
/ Restitution graphique
/ Comparaison de modèles
Exportation de données
PRÉ-REQUIS
Les participants devront être familiers avec
des logiciels de bureautique sous Microsoft
Windows.
Aucune
connaissance
particulière
statistique n'est requise.
Technologie(s) mis(es) en œuvre : IBM SPSS Modeler 14 et +
22
© Keyrus – Tous droits réservés
FORMATIONS STATISTIQUES ET DATA SCIENCE
Data Science
/ Liste des formations Data Science :
LIBELLÉ DE LA FORMATION
CODE
DURÉE
FRÉQUENCE
Introduction à la Data Science NOUVEAU
DSINIT
1
Bimestrielle
Acquisition et exploitation de données digitales NOUVEAU
DIGIT
2
A la demande
ML
2
Trimestrielle
TM
2
Semestrielle
Machine Learning
Text Mining NOUVEAU
NOUVEAU
23
© Keyrus – Tous droits réservés
DATA SCIENCE
Introduction à la « Data Science » (DSINT) NOUVEAU
1
DSINT
Durée en jour(s)
Référence de la formation
PROGRAMME DE LA FORMATION
Introduction
Les métiers de la DATA
/ Présentation générale de la « Data Science »
/ Plus qu’un métier, une équipe : Définition et prérogatives
/ Différences majeures entre les approches « Data
des différents métiers de la DATA (Data Scientist, Data
Comprendre les concepts de la « Data
Science » et les différences majeures avec
les approches « Data Mining » et « Big
Data ».
Science », « Data Mining » et « Big Data »
Engineer, Chief Data Officer,…)
De nouvelles données pour de nouveaux challenges
équipe « Data Science »
Disposer d’une connaissance générale sur
les méthodologies et technologies liées à la
« Data Science ».
/ Données textuelles
/ Focus sur le métier de « Data Scientist »
OBJECTIF PÉDAGOGIQUE
Identifier les compétences et les activités
associées aux métiers de la « DATA ».
/ Présentation des différents modèles d’organisation d’un
/ Données digitales (logs Web, réseaux sociaux,…)
Panorama des outils et solutions orientés « Data Science »
/ Open Data
/ Présentation des solutions « open source » vs
commerciales
Présentation de cas d’usages
/ Comparatifs des solutions sur base des critères suivants :
/ Connaissance Client 360°
PUBLIC
/ Monétisation/valorisation de la donnée
/ Internet des Objets
La formation DSINT est destinée à toute
personne souhaitant appréhender les
concepts et enjeux de la « Data Science ».
fonctionnalités analytiques, volumes de données, socle
technologique (Apache Hadoop ou non) et complexité de
mise en œuvre
/ Focus sur le langage R et son écosystème de packages
Les activités et méthodes liées à la « Data Science »
/ Data Science Management
/ Machine Learning
PRÉ-REQUIS
/ Text Mining
/ Visualisation de données
Aucun pré-requis.
Pas de technologie, ni de langage abordé
24
© Keyrus – Tous droits réservés
DATA SCIENCE
Acquisition et exploitation des données digitales (DIGIT) NOUVEAU
2
DIGIT
Durée en jour(s)
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Maitriser
les
principes
et
concepts
fondamentaux
d’acquisition
et
d’exploitation de données digitales.
Disposer de connaissances fondamentales
en programmation Python, langage de
référence pour les activités de Web
Crawling/Scraping.
Maitriser
les
techniques
de
Web
Crawling/Scraping et de récupération via
les API Web de données provenant des
réseaux sociaux.
PUBLIC
PROGRAMME DE LA FORMATION
Principe d’acquisition des données digitales
Manipulation de données digitales avec Python
/ Présentation des concepts fondamentaux d’acquisition
/ Mise en œuvre des techniques de Web Crawling/Scraping
de données digitales : Web Crawling (exploration de sites
avec le langage Python et la bibliothèque « Beautiful Soup »
Web), Web Scraping (extraction de contenu Web) et
/ Présentation et mise en œuvre de Scrapy, framework
données de réseaux sociaux
Open Source dédié aux activités de crawling et scraping
de sites Web
/ Extraction de données depuis des logs Web
Programmation Python
/ Présentation générale du langage Python
/ Installation de Python et présentation de l’environnement
Acquisition de données via des API Web
de développement IDLE
/ Acquisition de données via les API des réseaux sociaux
/ Bases syntaxiques : syntaxe, conventions de codage,
(Twitter, Facebook,…)
règles de nommage, affectation, commentaires,…
/ Focus et démonstration des packages R dédiés aux
/ Présentation/manipulation des types de données
réseaux sociaux : twitteR, Rfacebook,…
/ Contrôle du flux d'exécution : structure
La formation DIGIT est destiné aux profils
ayant des connaissances avancées en
programmation souhaitant acquérir les
compétences requises pour l’acquisition et
l’exploitation de données digitales.
PRÉ-REQUIS
Connaissance de la programmation R
(avoir déjà programmé en mode projet ou
avoir suivi récemment une formation
d’introduction à R).
Avoir des notions en langage HTML/XML.
conditionnelle (if/elif/else), opérateurs logiques et de
Travaux pratiques
comparaison, boucles while/for, instructions
/ Récupération de la liste de membres d’un groupe donnée
break/continue,…
sur la plateforme « Meetup.com »
/ Importation et utilisation des modules les plus courants
/ Enrichissement de la connaissance des membres d’un
(math, sys, calendar,…)
groupe Meetup avec les informations disponibles sur les
/ Expressions régulières (module « re ») et parsing de chaînes réseaux sociaux
de caractères
/ Gestion d’accès aux données
Technologie(s) mis(es) en œuvre : Python et R (ou Revolution R Open)
25
© Keyrus – Tous droits réservés
DATA SCIENCE
Machine Learning (ML) NOUVEAU
2
ML
Durée en jour(s)
Référence de la formation
PROGRAMME DE LA FORMATION
/ Arbre de décision et agrégation
Introduction
OBJECTIF PÉDAGOGIQUE
/ Présentation des concepts fondamentaux
/ Bagging et Boosting
/ Contexte et enjeux de l’essor actuel du Machine Learning
/ Mise en œuvre : Elagage et apport du bagging/boosting
/ Présentation de cas d’usage et de leurs valeurs ajoutées
Appréhender
l’ensemble
des
méthodologies de Machine Learning au
travers l’implémentation de différents cas
d’étude dans un contexte de forte
volumétrie de données.
Maitriser la validation des modèles et éviter
les erreurs d’interprétations.
Modélisation supervisée classique
/ Définition « algorithme d’apprentissage »
/ Cas de test d’introduction avec les modélisations classiques
/ Définition de l’apprentissage automatique
versus un arbre de décision
/ Support Vector Machine
Modélisation non supervisée
/ K-means clustering
/ Carte de Kohonen
/ Ecriture formelle d’une problématique de Machine Learning
PUBLIC
La formation ML est destinée aux
statisticiens (contexte de forte volumétrie
de
données) et aux
informaticiens
souhaitant
découvrir
les
algorithmes
d’apprentissage et leurs applications.
PRÉ-REQUIS
Connaissance minimale en mathématiques
correspondant à un niveau BAC+2.
Connaissance de la programmation R
(avoir déjà programmé en mode projet ou
avoir suivi récemment une formation
d’introduction à R).
/ Les modèles « classiques » : Régression linéaire/logistique
Réduction de dimension
et Naïve Bayes
/ Analyse en composantes principales
/ Validation : Validation croisée, courbe ROC et complexité / Algorithmes du type « Stepwise »
/ Retour au cas de test et conclusion sur le choix du modèle / Via les critères : khi2 et gain d’information
Modélisation supervisée évoluée
Travaux pratiques
/ Réseau de neurones
/ A partir de données « Open Data » (SNCF et INSEE), mise
/ Perceptron multi-couches (PMC)
en œuvre et comparaison de performances d’algorithmes
/ Mise en œuvre et focus sur les problèmes de taille
prédictifs avancés destinés à prédire le nombre quotidien
d’échantillons versus le nombre de couches
de voyageurs montant en gare (transilien).
/ K-nearest neighbor
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
26
© Keyrus – Tous droits réservés
DATA SCIENCE
Text Mining (TM) NOUVEAU
2
TM
Durée en jour(s)
Référence de la formation
OBJECTIF PÉDAGOGIQUE
PROGRAMME DE LA FORMATION
Introduction
Analyse exploratoire des textes
/ Origine et développement des méthodes de Text mining
/ Analyse des correspondances et analyse sémantique
/ Apport du Text mining et intérêt par rapport à des logiciels latente (avec pondération des termes)
Appréhender l’ensemble des méthodes de
valorisation des données non structurées.
Maitriser les techniques de préparation et
de visualisation des données textuelles.
Maitriser
les
différentes
techniques
d’analyses (analyse descriptive, analyse
exploratoire et classification) de données
textuelles.
PUBLIC
La formation TM est destinée aux
statisticiens et aux informaticiens souhaitant
découvrir et maitriser les méthodes de
valorisation des données non structurées.
d’aide à la lecture de texte ou à la recherche par mot clés
/ Interprétation des résultats : lecture des graphiques,
/ Différents types de corpus de texte
interprétation des axes,…
/ Comparaison approche linguistique (traitement du
/ Clustering : calcul de distances et CAH
langage naturel) vs approche statistique (« sac de mots »)
/ Description des classes obtenues : termes discriminants,
textes représentatifs,…
Pre-processing des textes
/ Intérêt du preprocessing
Classification de textes
/ Filtrage des « mots-outils » (« stopwords »)
/ Objectif de la classification
/ Lemmatisation versus racinisation
/ Choix des prédicteurs : sélection des termes vis à vis d'un
/ Pré-traitements de mise en forme
critère (score du khi2, TF-IDF) et utilisation de la fréquence
/ Représentations du texte : sacs de mots, bigrammes,,…
/ Filtrage des termes peu fréquents
Analyse descriptive du corpus
/ Analyse à plat : termes les plus fréquents, hapax, nuage
PRÉ-REQUIS
Connaissance minimale en mathématiques
correspondant à un niveau BAC+2.
Connaissance de la programmation R
(avoir déjà programmé en mode projet ou
avoir suivi récemment une formation
d’introduction à R).
de mots,…
/ Analyse croisée : spécificités lexicales, nuage de mots
avec discrimination,…
/ Termes co-occurrents
des termes vs coordonnées de l'analyse
sémantique/analyse des correspondances
/ Modèles de classification : SVM, classification bayésienne,
arbre et random forest
/ Indicateurs de qualité du modèle
Travaux pratiques
/ Notation de la qualité et de la satisfaction de restaurants
via l’analyse textuelle d’avis clients
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) et R.TeMiS
27
Téléchargement