Hadoop - Semaine 3
Hadoop - Semaine 3
Pierre Nerzic
février-mars 2017
1 / 46 Pierre Nerzic
Hadoop - Semaine 3
Le cours de cette semaine explique comment créer une application
MapReduce pour YARN complète. Deux projets vont être expliqués.
Ils concernent des statistiques sur des documents.
calcul de la variance
calcul de la valeur médiane
On va appliquer ça à la longueur des lignes de textes, mais ça
pourrait être la durée de séjour sur une place de parking payante, la
température mesurée à midi, le nombre de sangliers dans les
forêts. . .
2 / 46 Pierre Nerzic
Hadoop - Semaine 3
Application
Soient des données : des romans sous forme de fichiers texte. On
s’intéresse à la longueur des lignes (pourquoi ? mystère. . . ).
1897
DRACULA
by Bram Stoker
CHAPTER I.
JONATHAN HARKER’S JOURNAL.
(Kept in shorthand.)
3 May. Bistriz.- Left Munich at 8:35 P.M., on 1st May, arriving at
Vienna early next morning; should have arrived at 6:46, but train
was an hour late. Buda-Pesth seems a wonderful place, from the glimpse
which I got of it from the train and the little I could walk through
the streets. I feared to go very far from the station, as we had
arrived late and would start as near the correct time as possible. The
impression I had was that we were leaving the West and entering the
East; the most western of splendid bridges over the Danube, which is
here of noble width and depth, took us among the traditions of Turkish
rule.
3 / 46 Pierre Nerzic
Hadoop - Semaine 3
Calcul de la variance
Calcul de la variance
4 / 46 Pierre Nerzic
Hadoop - Semaine 3
Calcul de la variance
Définition
La variance d’un ensemble de données permet de caractériser la
dispersion des valeurs autour de la moyenne. La variance est le carré
de l’écart type.
La variance Vxest la moyenne des carrés des écarts des xià la
moyenne m:
Vx=1
nX
i
(xim)2
Vous pourrez trouver la notation
σ2
pour la variance et
µ
ou
¯x
pour
la moyenne.
Le problème de cette équation, c’est qu’il faut d’abord parcourir les
données pour extraire la moyenne.
5 / 46 Pierre Nerzic
1 / 46 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !