10
Situation et perspectives
TELECOM n°169 / BIG DATA
n’avaient pas perçu le tropisme “Data
Driven Analytics” (laisser parler les don-
nées) qui leur est associé. “HPC” n’est
donc pas synonyme de “Big Data” mais
peut en faire partie si l’on considère
que la puissance des machines de trai-
tement des données et les procédures
de parallélisation des codes sont des
composantes clés du processus. Ceci
dit la taille importante des données ne
caractérise pas forcément un projet “Big
Data”. Désambigüisons cette idée en
précisant ce que nous entendons par:
“Big Datapar extension”
vs “Big Dataintrinsèque”
a) Le “Big data par extension”
Il consiste à gérer pratiquement et
concrètement les applications métier
dont on a besoin sans être obligé, tout au
moins à l’heure actuelle, de faire de l’ex-
ploitation exhaustive de toutes les don-
nées dont on dispose, même si celles-ci
sont en très grand nombre. L’apport
des méthodologies “Big Data” pouvant
être un facteur d’amélioration considé-
rable d’un processus d’analyse qui donne
néanmoins déjà une certaine satisfac-
tion. Pour illustrer ce point, considérons
le cas du service Marketing d’un grand
opérateur du B2C qui veut segmenter
sa clientèle pour adapter ses ores à des
clients divers et qui désire les déliser
dans un contexte de concurrence exacer-
bée et de guerre des prix. Pour se faire
on ne travaille pas exhaustivement sur la
base des prols de plusieurs millions de
clients (pour certains opérateurs connus)
que l’on a renseignée mais sur un “big
sample” représentatif des clients que l’on
possède. Sur ce “big sample” (qui peut
aller jusqu’à 100000 individus) on pos-
sède des renseignements traditionnel-
lement présents dans les bases, plus des
informations particulières sur ces clients
tests, ce qui peut représenter des cen-
taines de variables comportementales,
biométriques et sociologiques. Parmi
les exploitations basiques et très clas-
siques de ces bases de données “sample”
deux résultats sont attendus: une “seg-
mentation de clientèle” gérable par les
“business lines” (agences commerciales)
et des programmes de “cross selling”3
ranés et ecaces. La “segmentation de
clientèle” en CRM consiste à découper la
population globale en segments typés
dans lesquels les clients ont des prols
(au sens de la base de données) voisins
ou similaires. Cette segmentation glo-
bale consiste donc en un “clustering” (ou
partionnement) de la base “big sample”
en un nombre de classes que l’on doit es-
timer et dont on cherche la “pertinence”
(en l’occurrence, dans ce cas, un com-
promis entre le fait d’avoir des classes
diérenciées en nombre raisonnable et
le fait d’avoir des classes susamment
homogènes). On aboutit, en général, à
des segmentations4 à une quarantaine
de classes maximum, (information fon-
damentale sur la structure de la popula-
tion étudiée), que l’on va exploiter par-
tiellement ou totalement. En eet, une
fois validé un nombre de classes adéquat
pour des objectifs xés, on réaecte l’en-
semble des clients de la base mère (celle
des millions de clients) sur les segments
trouvés, cette fonction de réaectation
par comparaison vectorielle aux prols
représentatifs des classes est typique-
ment une opération “Big Data”, car
elle porte sur l’exhaustivité de la base. En
eet, nous venons de le voir, on peut ex-
traire par sondages simulés “big sample”,
toutes les informations dont on a besoin.
Nous sommes alors typiquement dans
du “Big Data par extension», puisque
la taille certes monstrueuse des données
ne conditionne nullement les traite-
ments et l’exploitation qui en est faite.
Le “Big Data par extension” c’est donc
l’existence d’un potentiel d’amélioration
très conséquent au niveau de processus
d’analyse qui utilisent aujourd’hui un
certain nombre d’artefacts méthodolo-
giques comme palliatifs des incapacités
ou limitations calculatoires.
b) Le “Big Dataintrinsèque»
Dans ce cas, contrairement au cas pré-
cédent, où il existe des échappatoires,
on est confronté dès le départ à une
complexité de la problématique à ré-
soudre qui se situe simultanément au
niveau de la taille des données à mani-
puler et au niveau de la combinatoire
des calculs à eectuer. On ne peut gérer
cet environnement sans faire appel à
des algorithmes d’exploitation ou de
stockage qui tirent parti de la structure
même des données qu’on analyse. Pour
comprendre pourquoi les méthodes
actuelles d’exploitation et d’analyse des
grandes bases de données sont limi-
tées quant à leur potentialité d’appli-
cation sur ces très grands volumes de
données spéciques, prenons le cas,
(exemple pratiquement d’école), rela-
tif à la recherche de “communautés”
dans les réseaux sociaux. Ceci sert à
plusieurs types d’applications certaines
relevant par exemple du Marketing (“e-
reputation”, “propagation de rumeurs”,
“social marketing”) ou de la Sécurité du
territoire (recherche de communautés
de hackers en Cyber Sécurité, recherche
de communautés de fraudeurs (aux
paiements par carte en “e-business”,
ou aux remboursements ou aux presta-
tions étatiques: Sécurité Sociale, CNAV,
CNAM etc.) ou encore recherche de com-
munautés agissantes dans le domaine
du COIN (Counter Insurrection), etc.).
Posons alors clairement le problème :
pour analyser les communautés qui
pourraient éventuellement nous inté-
resser, encore faudrait-il les identi-
er, avant même d’analyser le contenu
de ce que ces communautés ont échan-
gé ou sont en train d’échanger entre
leurs membres (par des techniques de
traitement et d’extraction sémantique
de type TAL (Traitement Automatique
du Langage) ce qui est l’étape ultérieure
du traitement et qui n’est pas simple
non plus. Donnons quelques chires
sur quelques réseaux sociaux pour nous
rendre compte de l’immensité du champ
d’observation: Facebook (1,260 Billion
Noeuds, 93 Billion liens, Twitter (0,400
Billion Noeuds), LinkedIn (0,205
Billion Noeuds) etc. Dans ce cas, nous
sommes vraiment dans du “Big Data” à
proprement parler ou “Big Data intrin-
sèque”, et la problématique consistant à
délimiter les communautés les unes par
rapport aux autres est un challenge si
complexe que de nombreuses univer-
sités prestigieuses s’y sont attaqué et
continue à le faire (il s’agit ici, côté amé-
ricain: du MIT, de Stanford, de Cornell,
etc. côté européen encore une fois :
de l’Imperial College de Londres, de
l’Université d’Helsinski de l’Université
[3] Le « Cross Selling », recouvre le concept de la « vente croisée », outil fondamental du CRM en B2C, il se déroule en 3 étapes et consiste 1) à segmenter une grosse sous-population
de clientèle puis 2) à qualier chaque segment de clientèle trouvé, enn, 3) à rechercher dans la population mère totale des individus ayant un prol voisin de celui des membres des
segments qui ont déjà acheté un certain nombre des produits de cette compagnie.
[4] Sur un échantillon de taille non négligeable, la segmentation de clientèles devient un problème non trivial si elle est pratiquée dans les règles de l’art (voir la remarque de la note de bas
de page n°3). C’est la raison pour laquelle, certains utilisent la méthode des K-means (où l’on xe a l’avance le nombre de classes) pour pratiquer la segmentation de clientèle sans
complexe. Bien qu’erronée cette approche est pourtant très largement pratiquée……