Traitement et analyse de données dans Python
Référence et durée
PYTHDM
2 jours
Objectif
Savoir utiliser Python pour accéder, traiter, analyser des données.
Public
Des statisticiens utilisant un langage tel que SAS ou R pour préparer et analyser les données. Des
informaticiens maitrisant des langages de script et désirant s’initier au traitement de la donnée.
Prérequis
Connaissances de base en programmation informatique.
Programme
Utiliser Python comme un logiciel de data mining et data science
o Python 2 ou Python 3 ?
o Les différentes distributions, Focus sur la distribution Anaconda
o Environnement de travail Spyder et IPython Notebook
o Gestion des librairies
o Principales librairies pour la data science (Scipy, Numpy, Pandas, Scikit-Learn, StatsModel…)
La programmation
o Le langage Python (syntaxe, types, opérateurs)
o Les structures de données dans Python (dict, list, tuple, json, …)
o Les structures de contrôle (if then else, for, while …)
o Création de fonctions, Entrées / Sorties
o Exercices orienté programmation
La manipulation de données avec Scipy, Numpy et Pandas
o Accès aux données (fichiers, bases de données …), export
o Manipulation de données avec pandas (via les objets Series et DataFrame)
o Librairies d’Analyse et d’exploration : Matplotlib
o Expressions régulières pour traiter les chaînes de caractères
o Exercices : lire des données externes, connexion à une base SQL, préparation de données
(création de variables, jointures, filtres, union …), paramétrage et automatisation
Lincoln, 4 rue Danjou - 92517 Boulogne Billancourt – 01 46 99 36 38 - www.lincoln.fr - formation@lincoln.fr - Organisme N°11920980292
S.A.S. au capital de 500 000 € - RC Nanterre B 379 342 306 - APE 6202 A - N° Identification T.V.A.: FR 38 379 342 309
Esprit de service, Exigence technologique