Hadoop - Semaine 3

Téléchargement

Hadoop - Semaine 3

Pierre Nerzic

février-mars 2017

1 / 46 Pierre Nerzic

Hadoop - Semaine 3

Le cours de cette semaine explique comment créer une application

MapReduce pour YARN complète. Deux projets vont être expliqués.

Ils concernent des statistiques sur des documents.

calcul de la variance

calcul de la valeur médiane

On va appliquer ça à la longueur des lignes de textes, mais ça

pourrait être la durée de séjour sur une place de parking payante, la

température mesurée à midi, le nombre de sangliers dans les

forêts. . .

2 / 46 Pierre Nerzic

Hadoop - Semaine 3

Application

Soient des données : des romans sous forme de ﬁchiers texte. On

s’intéresse à la longueur des lignes (pourquoi ? mystère. . . ).

1897

DRACULA

by Bram Stoker

CHAPTER I.

JONATHAN HARKER’S JOURNAL.

(Kept in shorthand.)

3 May. Bistriz.- Left Munich at 8:35 P.M., on 1st May, arriving at

Vienna early next morning; should have arrived at 6:46, but train

was an hour late. Buda-Pesth seems a wonderful place, from the glimpse

which I got of it from the train and the little I could walk through

the streets. I feared to go very far from the station, as we had

arrived late and would start as near the correct time as possible. The

impression I had was that we were leaving the West and entering the

East; the most western of splendid bridges over the Danube, which is

here of noble width and depth, took us among the traditions of Turkish

rule.

3 / 46 Pierre Nerzic

Hadoop - Semaine 3

Calcul de la variance

4 / 46 Pierre Nerzic

Hadoop - Semaine 3

Calcul de la variance

Déﬁnition

La variance d’un ensemble de données permet de caractériser la

dispersion des valeurs autour de la moyenne. La variance est le carré

de l’écart type.

La variance Vxest la moyenne des carrés des écarts des xià la

moyenne m:

Vx=1

(xi−m)2

Vous pourrez trouver la notation

σ2

pour la variance et

¯x

pour

la moyenne.

Le problème de cette équation, c’est qu’il faut d’abord parcourir les

données pour extraire la moyenne.

5 / 46 Pierre Nerzic

1 / 46 100%

Documents connexes

troisième CC, avec correction rapide

François Royer 06 72 33 75 02 TIC Valley 425, rue Jean

Ateliers Page 2 Mardi 30 Juin matin matin après-midi

UNIFR – département de mathématiques 22 Mars 2017

les notations

deplacement des equilibres chimiques

td 2 proba de base

Fişa nr. 3 - WordPress.com

(W) + - Deptinfo

Data Engineer

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Hadoop - Semaine 3

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Hadoop - Semaine 3

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib