Outils

publicité
Statistique
Outils
Classes d’outils
Trois classes d’outils:
● ceux pour accéder aux données
● ceux pour l’analyse statistique
● ceux pour le rendering des résultats
Accès aux données
Plusieurs mécanismes:
● Fichier: texte, XML, classeur, csv, etc
● Base de données (BD): Oracle, MySQL, etc
● Entrepôt de données (ED): ensemble de BD
● Moteur: programme (robot) récoltant les données
Puissance et flexibilité croissante:
● Fichier: méga (106) données, organisation linéaire
● BD: giga (109) données, organisation en tables
● ED: tera (1012) données, organisation en tables
● Moteur: peta (1015) données, organisation en objets
Analyse statistique
On distingue trois groupes d’outils d’analyse statistique de
puissance et de flexibilité croissante:
● les chiffriers: Excel, Calc, Google docs, etc
● les logiciels spécialisés: SAS, R, SPSS, etc
● les langages de prog: Java, C++, Python, etc
Chiffrier
Forces:
● simple à utiliser
● pratique pour l’exploration rapide
Faiblesse:
● limité aux fichiers de petite taille et aux BD
● limité à la statistique descriptive de base
Logiciels spécialisés
Forces:
● bien connu des statisticiens
● standard de l’industrie
● puissant
● intégration avec les BD, ED
Faiblesses:
● flexibilité limitée
● centré sur les algorithmes classiques
● intégration difficile avec les modes alternatifs
d’accès aux données (robot)
Langages de programmation
Forces:
● flexibilité maximale
● puissance maximale (fort utile pour big data)
● accès à tous les algorithmes sans préférences
● s’intègre avec n’importe-quel accès aux données
● avantage compétitif
Faiblesses:
● nécessite de programmer
● courbe d’apprentissage difficile
● trop de possibilités
● exige une connaissance approfondie des
algorithmes
Popularité selon jobs
Téléchargement