BIG DATA - AgroTIC

publicité
BIG DATA
Veille technologique
Malek Hamouda
Nina Lachia
Léo Valette
Commanditaire : Thomas Milon
Encadré: Philippe Vismara
1
2
Introduction
Historique des bases de données : méthodes de stockage et d’analyse
1960
Organisation
classique en fichier
1980
1970
Premier SGBD
2 ème génération
des SGBD:
Les systèmes
relationnels
Méthodes d’analyses statistiques
classiques
1985
3 ème génération
des SGBD:
Les systèmes
orientés objets.
2000
Entrepôt de
données
1er méthode d’analyse
Fouille de
chimiométrique
données.
multivariée :
Exploratoires (ACP,AFCM)
Régression(PCR, PLS)
2012
Explosion du
volume de
données
Méthodes pas
assez puissante
pour traiter et
analyser toutes
ces données
3
Introduction
Volume
Vitesse
Variété
à Big Data
Ensemble de données trop volumineuses et variées pour être stockées
ettraitées avec des outils classiques de gestion de base de données. Problèmatique: Comment stocker et analyser ces
données?
Introduction
4
Qui est concerné par le Big Data
q  Web, internet et objet communicant : e-Journaux, réseaux sociaux, ecommerce, stockage de document, RFID, réseaux de capteurs…
q  Sciences : génomique, astronomie, climatologie…
q  Données commerciales, personnelles, publiques. (Historique de transaction
dans une chaine de supermarchés, Dossier médicaux, Open data )
Fournisseurs de solutions
Leader du web
Le secteur scientifique
Les grands acteurs de logiciel et
système d’entreprises
5
Plan
›  Formes
de stockage des données
›  Méthode
de traitement
›  Conclusion
et perspectives
I. Quelles formes de stockage ?
6
Modèle classique :
BD relationnelle
Interrogation
par requête SQL
Techniquement
impossible sur du
big data
Modèle NoSQL
(not only SQL)
I. Quelles formes de stockage ?
Le modèle NoSQL
Base du NoSQL : structure
Clé
Valeur
Nina
agroTIC
Malek
Tunisie
Léo
Etudiant
7
« clé-valeur » distribuée
Clé
Valeur
Malek
Etudiante
Léo
23
Nina
France
Bruno
Enseignant
Simplifier les BD :
›  Supprimer les relations entre tables
›  Transférer l’intelligence des requêtes SQL vers l’applicatif qui interroge la BD
›  Pouvoir répartir la BD sur plusieurs serveurs
I. Quelles formes de stockage ?
8
Base de donnée clé-valeur
AVANTAGES
›  Stocker un grand nombre de données et de nature variée
›  Effectuer des requêtes rapides
›  Augmentation de la capacité de calcul et de stockage en
ajoutant de nouveaux serveurs
INCONVENIENTS
› 
› 
› 
Pas de requêtes complexes
Transactionnel limité (atomicité, cohérence, isolation,
durabilité)
Apprendre une nouvelle approche de technologie
de base de données
I. Quelles formes de stockage ?
9
Les différents types de NoSQL
I. Quelles formes de stockage ?
10
Les différents types de NoSQL
APPLICATIONS :
›  Données semi-persistantes
cache, pour conserver les sessions d'un site web
›  stockage pour des files d'attentes,
›  accumuler des événements bruts en vue d'en
agréger des statistiques
› 
EXEMPLES :
›  Memcached
›  CouchBase
›  Redis
I. Quelles formes de stockage ?
Les types de NoSQL
BigTable et dérivés
Clé
(ID message)
Valeur
(destinataire)
11
Tag temps
(heure
envoie)
APPLICATIONS :
›  BD de tous les produits
Google (Gmail, Reader,
gmaps, Earth, blogger,
youtube,…) sur Bigtable
›  BD de Twitter sur
Cassandra
›  BD de Facebook sur
HBase
I. Quelles formes de stockage ?
Les types de NoSQL
BD orientées documents
12
Clé
(id document)
Valeur
(information structurée de manière hiérarchique type XML,JSON)
Doc001
{promo:’agrotic2012’, groupe : ’Malek, Nina, Leo’, travail : ’veille
techno’, date : ’19/12/2012’, body:’…’,…}
APPLICATIONS :
›  Accélérateur de
particules du CERN,
banque Barclays sur
MongoDB
›  Ubuntu One et la
banque suisse sur
CouchDB
›  Mozilla, AOL sur Riak
I. Quelles formes de stockage ?
Les types de NoSQL
BD orientées graphes
Clé
Valeur
3
{Statut:’étudiante’, Etat:’souriante’}
103
{label:’enseigne à’}
13
Bruno
Id: 1
Statut : enseignant
Id: 103
label : enseigne à
Nina
Id: 2
Statut : étudiante
Id: 203
label : est amie
avec
Malek
Id: 3
Statut : étudiante
État : souriante
APPLICATIONS :
›  Deutsche Telekom et
Viadeo sur NEO4J
14
Plan
›  Formes
de stockage des données
›  Méthode
de traitement
›  Conclusion
et perspectives
II.  Méthode de traitement
15
Une Nouvelle façon d’interroger les données
Architecture traditionnelle
Architecture BigData
Division en clusters
à Une méthode de programmation d’analyses en parallèle
à Grande quantité de données, traitement à grande vitesse
Source: http://static.slidesharecdn.com/
II.  Méthode de traitement
16
Le principe en exemple
Compter le nombre de lettres contenus dans un fichier
Fichier
Splitting
source Découpage
(Base de en blocs
données
NoSQL)
Mapping
Fonction
d’analyse
parallèle
Shuffling
Tri
Reducing
Agrégation
des
informations
Résultat
A, 3
B, 1
C, 3
D, 2
à  Répartition du travail
à  Efficace sur des tera octets de données
II.  Méthode de traitement
17
Source: http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=bigdata1-111109113624-phpapp02&stripped_title=big-data-par-mfglabs&userName=benjamingans
II.  Méthode de traitement
18
Projet Apache Open Source
II.  Méthode de traitement
19
PARALLELISATION DES PROCESSUS
›  Volume de donnée
›  Vitesse de traitement augmentée
Les traitements en temps réel
Quelques exemples
Publicité
›  Transactions financières
›  Gérer des flux de données énormes en temps réel
› 
Conclusion:
20
›  Principes:
Travail en parallèle et structuration
simplifiée de la donnée.
›  Le
Big Data ne s’applique que dans des cas
particuliers, pour des besoins particuliers.
A quand un BigDat’Agricole?
21
Autres informations:
› 
› 
Conférence à Paris (Défense)au CNIT le 3 et 4 avril 2013 sur le
BIG DATA.
1er master en France, ouvre en 2013 à Telecom Paris Tech sur
“BIG DATA : gestion et analyse des données massives”.
22
23
Risques:
Protection des données à caractères personnelle:
Mot de passe, liberté de circulation,géolocalisation des personnes
à partir des smartphones (photos et les publications).
› 
› 
De contrôle permanent de la pars des autorités.
24
Bibliographie (articles scientifique, conférences, livres,
cours…)
Conférence du 20/21 mars 2012 sur les Big Data à la Cité universitaire à Paris
›  http://www.digora.com/blog/big-data-connaissez-vous-hadoop/
›  http://123opendata.com/blog/le-lexique/#ixzz2FOHD8rRn
(lexique de l’Open Data)
›  http://www.telecom-paristech.fr/big-data-dossier-presse.html#c9999
›  http://www.telecom-paristech.fr/formation-continue/les-entretiens-detelecom-paristech/dec-2012-big-data-big-value/avis-experts.html#c10129
›  http://nosql.mypopescu.com/post/9621746531/a-definition-of-big-data
›  http://france.emc.com/microsites/bigdata/index.htm
›  http://eric.univ-lyon2.fr/~jdarmont/docs/old/sise-bd.pdf
›  Journal : O’Reilly, article Big Data Now . Edition 2012.
›  Big Data Spectrum, Connect Architecture, Infosis.
›  Big Data et Open source, une convergence inévitable, Mars 2012 Stéphane
Fermier.
› 
25
II. 
› 
Nouveau mode de traitement des flux
de données « Stream Processing ».
Utilité: permet d’effectuer plus facilement et
plus rapidement le calcul parallèle.
›  Pourquoi?
§ 
§ 
:
Les données en entrée sont trop rapide pour
les stocker dans leur intégralités
La réponse doit être immédiate. (en temps
réel)
›  Quelques
exemples.
26
Annexes
27
Annexes
Téléchargement