Les mathématiques des Big Data
diocre. Les données Big Data sont souvent incom-
plètes, entachées d’erreurs, ou de bruit, pour parler
la langue d’un traiteur du signal (mais les sources
de bruit en traitement de signal sont le plus sou-
vent beaucoup plus faciles à identifier et du coup à
combattre).
Avant d’être archivées et analysées ces don-
nées doivent être « pré-traitées », « filtrées »... Ce
processus est appelé en anglais data curation. Je
ne suis pas sûr de connaître une excellente traduc-
tion française, disons « conditionnement des don-
nées ». Le processus de data curation recouvre de
nombreuses étapes de consolidation des sources,
réorganisation de l’architecture d’accès aux don-
nées pour en faciliter l’accès, d’identification des
biais de collecte, de recherche de données aber-
rantes, de recodage, etc. Cette étape, en amont
de l’analyse, est absolument indispensable. Elle ne
repose pas sur de « grands principes » théoriques
mais requiert une sérieuse dose d’expertise, de bon
sens et surtout, beaucoup de patience.
Après la Data Curation vient typiquement l’ana-
lyse. Les tâches que l’on peut assigner à un sys-
tème de traitement Big Data se séparent en deux
groupes : les tâches « prédictives » ou « décision-
nelles » et les tâches de « découverte » ou de « mi-
nage » des données. Ces deux grandes classes de
problèmes ont des objectifs et des contraintes très
différents.
Les tâches prédictives recouvrent en particulier
la classification et la prédiction, mais ne se limitent
pas à ces problèmes. La classification est un en-
semble de méthodes qui permettent d’identifier la
« classe » d’une donnée, en utilisant une base de
données d’apprentissage préalablement étiquetées.
La prédiction (ou régression) est un ensemble de
méthodes statistiques permettant, en utilisant un
ensemble d’apprentissage, une réponse en fonction
d’un ensemble de variables explicatives. Cette ré-
ponse peut être un label catégoriel, attribut numé-
rique, voire une fonction (pour la régression fonc-
tionnelle) etc. Les tâches prédictives ont dans cer-
tains cas une dimension « temps réel » (pour fixer
un prix, identifier un morceau de musique sur le
web,...).
Les tâches de « découverte » ou de « minage »
(data mining) consistent à extraire des « struc-
tures » de grands ensembles de données. Ces struc-
tures peuvent être des clusters (des groupes d’ob-
servations ayant des comportements homogènes),
des règles d’association (pour détecter des rela-
tions entre ensembles de variables), de l’analyse de
réseaux (identifier les relations entre les différents
nœuds d’un réseau), de l’analyse de sentiments
(pour extraire une information subjective d’un en-
semble de textes). Ces tâches de data mining font
plutôt l’objet d’analyses « hors-ligne ».
La dichotomie entre méthodes prédictives et
data mining est assez floue. Par exemple, les sys-
tèmes de recommandation, qui visent à présenter
à un utilisateur des éléments d’information (films,
musique, livres, news, images, pages Web, etc.) qui
sont susceptibles de l’intéresser, associent des mé-
thodes prédictives et de data mining.
Mettre en œuvre une application de classifica-
tion, de régression ou de data mining dans un cadre
Big Data pose bien entendu des questions spéci-
fiques difficiles.
Le premier obstacle à franchir est l’hétérogé-
néité. Les données Big Data sont souvent obtenues
en agrégeant différentes sources de données de
nature très différentes. On peut être amené à trai-
ter de façon simultanée des données numériques,
catégorielles, mais aussi textuelles, des données
de préférence, des historiques de navigation, des
historiques d’achat sur des sites de e-commerce...
Des données de médias sociaux, analysées à l’aide
de méthodes de traitements de langue naturelle,
peuvent être fusionnées avec des données de vente
pour déterminer l’effet d’une campagne publicitaire
sur le sentiment des consommateurs sur un produit
et les comportements d’achat. La pollution à Paris
est surveillée en temps réel en assimilant des obser-
vations de capteurs mesurant la concentration de
polluant et de particules, de données climatiques
(flux solaire, températures, vitesses et orientation
du vent), de capteurs de trafic dédiés, de systèmes
de vidéosurveillance. La capacité d’extraire des in-
formations pertinentes des données obtenues en
agrégeant des sources de nature très différentes
en les fusionnant est à coup sûr une des clefs du
succès des systèmes Big Data.
Le développement d’un algorithme d’agrégation
et de fusion nécessite une première étape de « re-
codage », permettant de représenter cette informa-
tion sous une forme exploitable par un algorithme
de traitement. Il est souvent difficile de mélanger
dans une même analyse des données catégorielles
et numériques. . . on imagine sans peine qu’il est
encore plus difficile d’agréger des données numé-
riques, des textes, des données de recommanda-
tion. . . Cette étape de définition d’une « bonne re-
présentation » est très délicate et constitue un véri-
table défi scientifique.
SMF – GAZETTE – AVRIL 2015 – No144 9