Statistique Outils Classes d’outils Trois classes d’outils: ● ceux pour accéder aux données ● ceux pour l’analyse statistique ● ceux pour le rendering des résultats Accès aux données Plusieurs mécanismes: ● Fichier: texte, XML, classeur, csv, etc ● Base de données (BD): Oracle, MySQL, etc ● Entrepôt de données (ED): ensemble de BD ● Moteur: programme (robot) récoltant les données Puissance et flexibilité croissante: ● Fichier: méga (106) données, organisation linéaire ● BD: giga (109) données, organisation en tables ● ED: tera (1012) données, organisation en tables ● Moteur: peta (1015) données, organisation en objets Analyse statistique On distingue trois groupes d’outils d’analyse statistique de puissance et de flexibilité croissante: ● les chiffriers: Excel, Calc, Google docs, etc ● les logiciels spécialisés: SAS, R, SPSS, etc ● les langages de prog: Java, C++, Python, etc Chiffrier Forces: ● simple à utiliser ● pratique pour l’exploration rapide Faiblesse: ● limité aux fichiers de petite taille et aux BD ● limité à la statistique descriptive de base Logiciels spécialisés Forces: ● bien connu des statisticiens ● standard de l’industrie ● puissant ● intégration avec les BD, ED Faiblesses: ● flexibilité limitée ● centré sur les algorithmes classiques ● intégration difficile avec les modes alternatifs d’accès aux données (robot) Langages de programmation Forces: ● flexibilité maximale ● puissance maximale (fort utile pour big data) ● accès à tous les algorithmes sans préférences ● s’intègre avec n’importe-quel accès aux données ● avantage compétitif Faiblesses: ● nécessite de programmer ● courbe d’apprentissage difficile ● trop de possibilités ● exige une connaissance approfondie des algorithmes Popularité selon jobs