2
3. Cette augmentation s’explique notamment par la diversification des sources de production de
données : celles-ci sont en effet générées par les individus, mais aussi par les objets connectés,
les sites web, les applications mobiles, les systèmes informatiques… Elle provient également
de la plus grande diversité des données elles-mêmes. Par exemple, et sans que la liste ne soit
exhaustive, les individus génèrent aujourd’hui plusieurs catégories de données : données de
contact (nom, prénom, e-mail…), données sociodémographiques, données de transaction,
données relationnelles, données comportementales (recherches, types d’achats, publicités et
vidéos visionnées…), données de géolocalisation, données de communication (messagerie
instantanée, e-mails…), données techniques (identifiants d’appareils)4. Et ce développement
concerne au premier chef les données non structurées5 (fichiers audio, vidéos, fichiers textes,
messages écrits, contenu des pages web….), qui représentent aujourd’hui la grande majorité
des données produites6.
4. Afin d’exploiter ces nouvelles formes de données de façon automatisée et instantanée, des
outils informatiques ont été développés au cours des années 2000, par de nouvelles entreprises
telles qu’Amazon ou Google. Google a par exemple développé des infrastructures
informatiques afin d’améliorer le fonctionnement de son moteur de recherche. Google est
ainsi à l’origine du modèle de programmation MapReduce, qui a permis d’améliorer le
fonctionnement du système d’indexation des pages web par son moteur de recherche et de
pouvoir exploiter des volumes importants de données non structurées7. De manière
comparable, afin de créer son système de recommandation automatisé à la fin des années 90,
Amazon a développé des infrastructures informatiques pour ses propres besoins, puis a, dès
2006, commercialisé ces services à des entreprises tierces. Amazon Web Services est
aujourd’hui le leader du secteur de l’informatique en nuage. Le marché mondial des services
et des technologies d’exploitation des données massives (Big Data) devrait atteindre
48,6 milliards USD en 2019 contre 3,2 milliards USD en 2010, avec un taux de croissance
d’environ 23 %8.
5. Ces dernières années, l’automatisation et l’exploitation de données se sont significativement
accrues dans un des secteurs centraux de l’économie numérique, celui de la publicité en ligne.
Depuis 2010, celui-ci a connu de fortes évolutions, parmi lesquelles le développement de
l’achat programmatique, qui permet la « mise en relation automatisée de vendeurs et
d’acheteurs d’inventaires publicitaires »9, et le développement des systèmes d’enchères en
temps réel (ou RTB, Real Time Bidding), qui consistent à « allouer une impression
publicitaire à un client et d’en déterminer le prix en fonction des critères de ciblage et de ses
caractéristiques comme la taille de la bannière, le contexte de la page web ou encore
l’endroit et le moment auxquels elle est visualisée, le tout en temps réel. Le RTB est l’un des
modes d’achat programmatique, son mode de commercialisation est aux enchères »10. Ces
évolutions technologiques accroissent la place des données11 dans le déroulement des
4 Cf. par exemple, The commercial use of consumer data Report on the CMA’s call for information, Competition
and Markets Authority, 2015, p.24-25.
5 Contrairement aux données structurées, elles ne sont pas organisées selon un modèle prédéfini (ex : formats des
données et relations entre les données).
6 OCDE, Data-Driven Innovation, Big Data for Growth and Well-Being, octobre 2015, p.151.
7 Suite à cette invention, Hadoop, une implémentation open-source de MapReduce, a été développée et mise à
disposition du public en 2006. Hadoop est aujourd’hui un standard en matière d’exploitation de données
massives.
8 https://m.idc.com//pressRelease/prUS40560115.
9 Lexique du Syndicat des Régies Internet accessible à l’adresse suivante : http://www.sri-france.org
10 Lexique du Syndicat des Régies Internet.
11 Les principales catégories de données qui sont exploitées sont celles concernant les clients, les données
relatives aux offres des annonceurs et les données des médias sur lesquels les annonces sont affichées.