3
trouvé afin de ne pas trop réprimer à la fois les droits et liberté des personnes concernées et des
opportunités légitimes. Des garanties suffisantes doivent être offertes, permettant un usage légitime et
socialement responsable
. Ce dernier aspect fait l'objet de la seconde partie qui contient une analyse
de la législation et de la réglementation actuelles appliquées au big data.
A. Qu'est-ce que le big data ?
Comme c'est très souvent le cas lors de l'apparition d'un nouveau phénomène, il n'existe pas de
consensus sur une définition. Cela vaut aussi pour "big data". Les définitions divergent et mettent
respectivement l'accent sur la quantité de données, la diversité et la complexité des données, les
nouvelles méthodes d'utilisation des données ainsi que les possibilités sociales, économiques et
stratégiques que génère l'utilisation du big data.
Autrement dit, il est difficile de donner une définition univoque du big data. Une meilleure manière de
décrire le phénomène ambigu que constitue le big data consiste à relever une série de caractéristiques
majeures. Il convient tout d'abord d'observer les propriétés des données utilisées dans le contexte du
big data. Elles sont généralement décrites au moyen des 3 lettres "V":
Volume
,
Variété
et
Vitesse
. Dans
le contexte du big data, il est généralement question de grandes quantités de données qui doivent être
traitées (
Volume
) En outre, ces données proviennent généralement de différentes sources et sont
souvent stockées dans des formats structurés, semi-structurés ou non structurés (entre autres texte,
image et son) (
Variété
). Dans le cadre de big data, il est aussi question de la vitesse à laquelle les
données sont collectées et traitées : des flux de données doivent souvent être traités en continu, parfois
en temps réel (
Vitesse
). Au fur et à mesure que le domaine du big data gagnait en maturité, ces 3 "V"
ont été complétés par encore d'autres "V", parmi lesquels
Véracité
(qualité et fiabilité des données) et
Valeur
. Une conséquence caractéristique de ces "V" pour big data est que le volume de données
collectées est devenue trop grand et/ou trop complexe pour être traité à l'aide de logiciels traditionnels
de traitement de données.
Ce ne sont toutefois pas uniquement les caractéristiques des données qui déterminent ce qu'est le big
data, mais aussi les méthodes ou les techniques d'utilisation de ces données.
Pour l'exprimer de
manière un peu simple, on peut dire que la méthode scientifique classique part d'hypothèses,
concernant généralement des mécanismes causaux, qui sont ensuite testées de manière empirique à
On entend par là l'utilisation éthique et socialement consciente des données à caractère personnel. N'en font pas partie les
applications qui ont des conséquences discriminatoires pour certains groupes de population (voir ci-après "biais de sélection") et
qui ne tiennent pas suffisamment compte des droits et libertés des personnes concernées. Voir les points B, F et I ci-après. Voir
aussi le document en néerlandais du Wetenschappelijke Raad voor het Regeringsbeleid (Conseil scientifique de la politique
gouvernementale des Pays-Bas), Synopsis van WRR-rapport,
http://www.wrr.nl/fileadmin/nl/publicaties/PDF-samenvattingen/Synopsis_R95_Big_Data_in_vrije_en_veilige_samenleving.pdf
WRR-rapport 95 (2016).
Big Data in een vrije en veilige samenleving
, pg. 33.
Ceci a notamment pour conséquence que les termes "Big Data" peuvent aussi se rapporter à de petits ensembles de données.
Inversement, cela signifie que tous les grands ensembles de données ne sont pas typiquement du big data.