Fiche Cardon Bret

publicité
Dominique CARDON, A quoi rêvent les algorithmes ? Nos vies à l’heure des big data,
éditions du seuil-La République des Idées Paris, octobre 2015
Cyrille Bret– octobre 2015
L’auteur, le contexte, la thèse, le plan de l’ouvrage
L’auteur : sociologue spécialiste des nouvelles technologies travaillant pour Orange
Le contexte : les débats sur les 4 projets de loi en France sur le numérique et la Digital Single
Market Strategy de la Commission européenne (6 mai 2015)
La thèse : le big data transforme la vie quotidienne mais aussi les représentations sociales
« La thèse de ce livre est que, si les logiques de personnalisation s’installent aujourd’hui dans
nos vies, c’est parce qu’elles calculent une forme nouvelle du lien social, la société des
comportements, où se recompose la relation entre le centre de la société et des individus de
plus en plus autonomes.1 »
Le plan :
1. Typologie des 4 grandes formes d’algorithmes
2. Les 3 grandes modifications de la société et par le big data
3. Les mythes de la société des calculs
4. La lecture politique du big data
Introduction : comprendre la révolution des calculs
Chiffrer le monde
La véritable rupture du big data est que le monde du calcul rend « tout mesurable ». Alors que,
traditionnellement, les statistiques étaient l’apanage des grandes organisations (Etats), depuis
la révolution libérale, elles se répandent partout dans les micro-groupes.
« Les instruments statistiques sont devenus une technique de gouvernement. (…) L’objectif
de ces indicateurs est moins de connaître le réel que de conduire les conduites.2 »
Les algorithmes, autrement dit les programmes de traitement automatique des informations
sont destinés à aider à s’orienter dans le monde chiffré.
Ouvrir la boîte noire
Si les effets des algorithmes sont bien connus, leurs contenus sont une boîte noire. Le
sociologue doit les éclaircir pour éviter les déterminations imposées.
« Une radiographie critique des algorithmes est un enjeu démocratique aussi essentiel
qu’inaperçu.3 »
Chapitre 1 : quatre familles de calcul numérique
Le big data a successivement produit quatre manières de produire de la visibilité avec du
calcul. Elles se distinguent par la place du calculateur par rapport au monde :
1. A côté des données numériques : les mesures d’audience établissent des popularités.
2. Au-dessus des données numériques : Google se place au-dessus du web pour établir
l’autorité des sites en fonction des liens qu’ils échangent.
3. Dans les données numériques : les mesures de réputation sur les réseaux sociaux.
1
P. 16.
P. 9-10.
3
P. 13.
2
Bret/octobre2015
1
4. En dessous des données numériques : les mesures prédictives sont basées sur les
comportements réels et non sur les déclarations.
Chacun de ces types de calcul correspond à un type de besoin, présente des avantages et des
inconvénients et emporte avec lui des effets sociaux et politiques particuliers.
Famille 1 - A côté du web : l’imprécise popularité des clics
La fréquentation des sites a d’abord été mesurée par le nombre de clics. Il y a une parenté
avec le processus démocratique : 1 clic = 1 vote = 1 opinion =1 citoyen.
L’audience des sites web sert essentiellement aux acteurs de la publicité et est mesurée de
plusieurs façons :
1. User centric (centrées sur l’utilisateur) : un panel représentatif est suivi et les
campagnes de publicité sont pensées en fonction de ses préférences exprimées. On
connaît les profils mais mal les comportements.
2. Site centric centrées sur le site) : les webmestres mesurent la fréquentation réelle du
site. Mais la fréquentation des sites peut être manipulée. On constate les
comportements mais les profils restent mal connus.
3. Cookie centric : le cookie est un fichier informatique déposé sur le site consulté par
l’ordinateur de l’Internaute. C’est le cheval de Troie des publicitaires.
Quel que soit le mode de calcul, la mesure d’audience porte uniquement sur la fréquentation
et non pas sur les actes : achats, votes, etc.
Famille 2 - Au-dessus du web : l’autorité des méritants
Pour donner une image qualitative de la visibilité sur Internet, Google (et Page Rank son
algorithme) enregistre les échanges entre internautes sans les influencer. C’est le nombre de
références croisées qui fait l’autorité d’un site. C’est un principe inhérent aux communautés
scientifiques : la reconnaissance par les pairs. La méritocratie élitiste remplace la
démocratie. Deux reproches récurrents sont adressés à ce système :
1. La centralisation : les sites les plus visibles reçoivent le plus de clics. La mesure de
l’autorité se dégrade en mesure de la popularité.
2. L’effet censitaire : font autorité les internautes les plus actifs qui produisent des liens
hypertextes. Cela exclut certaines voix de l’Internet, notamment celles des réseaux
sociaux (jeunes, peu éduqués, classes populaires).
« La voix de ces nouveaux internautes actifs peut difficilement être ignorée des
classements.4 »
Famille 3 - A l’intérieur du web : la fabrique de la réputation
Ce sont les internautes qui se mesurent eux-mêmes les uns les autres, en répertoriant les
approbations. La réputation débouche sur l’influence quand elle atteint un seuil de
« suiveurs » (followers). Toutefois, ce modèle de mesure a plusieurs limites :
• l’influence peut être fabriquée par des stratégies marketing
• les notes sont peu discriminantes et défient l’interprétation car la signification des
notes ou des approbations n’est pas standardisée
• il y a un décalage entre les contenus explicites d’approbations et les choix réels. Par
exemple, les notes les plus hautes sont données à des contenus valorisés socialement
mais les achats se portent vers les contenus populaires (films d’auteurs vs.
Blockbusters sur Netflix)
4
P. 29.
Bret/octobre2015
2
Famille 4 - Au-dessous du web : la prédiction par les traces
Il s’agit « d’enregistrer le plus discrètement possible les traces de ce que font les
internautes.5 ». Cette famille de mesure repose sur le machine learning autrement dit sur la
production de probabilités sur les comportements futurs à partir des comportements passés
d’individus ayant des paramètres comparables. Le but est de déboucher sur des
recommandations de choix (Amazon, Netflix, etc.). C’est la base du retargeting publicitaires
ou de la publicité de recommandation à partir non des préférences exprimées mais des
comportements effectifs.
« Comme un sapradrap collé au doigt, le retargeting est aujourd’hui une des formes
dominantes de la publicité numérique. Dans un marché où les revenus sont en réalité très bas,
il offre à court terme une efficacité légèrement supérieure à une publicité non ciblée, tout en
détruisant à long terme la confiance des clients.6 »
Chapitre 2 : la révolution dans les calculs
Trois ruptures du big data modifient les représentations de la société par elle-même :
1. les mesurés sont devenus eux-mêmes mesureurs et calculateurs
2. les représentations sociales collectives cèdent le pas à l’individualisation des profils
3. on délaisse la recherche des causes pour ne plus s’occuper que des corrélations
Le but du big data est de « calculer la société sans catégoriser les individus.7 »
La manipulation du réel
Les acteurs essaient de manipuler les indicateurs ce qui altèrent leur validité.
« La réflexivité des compteurs a non seulement rendu les acteurs de plus en plus stratèges
mais elle a aussi rendu le réel de plus en plus manipulable.8 »
Le débordement des catégories
Le big data aboutit à la contestation des catégories socio-professionnelles ainsi qu’au
remplacement des sociologues par les économètres. Le but de la statistique sociale était de
catégoriser le réel en identifiant les origines, les revenus et les modes de vie. Le but de
l’économétrie est d’individualiser au maximum la description du réel.
Calculer au plus près
Les individus ne veulent plus se laisser enfermer dans les catégories.
« Les patients ne veulent plus être réduits à leur maladie, les clients à leurs achats, les
touristes à leurs trajets, les militants à leur organisation, les spectateurs au silence, etc.9 »
Corrélations sans causes
L’ambition des gourous de la Silicon Valley est de se passer de modèle explicatif : il s’agit de
calculer des corrélations sans poser un modèle préalable. Il s’agit de faire l’économie des
sciences de l’homme en renonçant à la recherche des causes pour se contenter de relever les
corrélations entre des faisceaux de caractéristiques individuelles. Les idéaux types des
sociologues cèdent la place aux patterns révisables des publicitaires.
5
P. 33.
P. 37.
P. 40.
8
P .43.
9
P. 47.
6
7
Bret/octobre2015
3
Cela conduit à une inversion de la construction sociale : on ne part plus de grands cadres pour
aller vers les individus. On part des comportements individuels pour en inférer des
comportements probables. Les grands récits collectifs sont balayés.
Chapitre 3 : les signaux et les traces
Le big data a un crédo scientiste : il suffirait de libérer les données pour que les vérités
mathématiques sous-jacentes au réel social apparaissent et que les sociétés s’améliorent. Il est
aussi naïvement behavioriste.
« Si notre monde est imparfait, c’est que nous manquons de données pour le corriger.10 »
Les nouveaux gisements de données
C’est exact : il existe de nombreuses bases de données sous-exploitées ou mal exploitées mais
plusieurs mythes du big data doivent être écartées :
• Il n’existe pas de données brutes mais seulement des faits déjà interprétés
• Il n’existe pas de signification des données sans schéma général de questionnement
sur elles. Par exemple, les statistiques de l’assurance maladie servent à identifier les
médecins qui sur-prescrivent mais pourraient également aider les patients à dénoncer
les injustices sanitaires, interrogées différemment.
Des « machines statistiques »
Avec le big data, l’intelligence artificielle évolue : il ne s’agit plus de rendre les machines
intelligentes par imitation de la compréhension humaine. Il s’agit de les rendre plus adaptées
par traitement de masses d’informations et production de probabilités. Par exemple, la
traduction automatique n’essaie plus de faire comprendre le sens des mots mais de prévoir les
combinaisons de mots les plus probables à partir de la plus grande quantité possible de textes.
C’est le modèle de Google Translate.
Le signal et la trace
Un algorithme fonctionne a plein quand non seulement il prévoit les comportements mais
même quand il les oriente en combinant :
• les signaux ou contenus informationnels, sémantiques, intentionnels : les mots
• les traces de comportement : trace GPS, clics, etc.
Le ressort est invariable : sur des masses de consommateurs, les habitudes de consommation
sont répétitives : j’aimerai tel livre car d’autres ayant des habitudes comparables aux miennes
aiment tel livre. Les moteurs aboutissent souvent à la trivialité.
Un comportementalisme radical
Les algorithmes prédictifs ont tendance à enfermer les internautes dans une bulle (filter
bubble) de préférence : ainsi, sur Facebook: les internautes de gauche amis avec des amis de
gauche reçoivent des nouvelles de gauche. En somme l’individu ne trouve dans les modèles
de prédiction que ce qu’il y met lui-même.
« Le paradoxe des nouveaux calculs est que, refusant la prescription paternaliste des médias,
les individus désormais calculés à travers leurs traces ont des conduites régulières.11 »
La révolution des algorithmes pourrait donc bien ne pas tenir deux de ses promesses :
• Renforcer le conformisme plutôt que d’ouvrir les individus vers de l’inconnu
• Concentrer la demande sur de grands groupes plutôt que sur des indépendants
10
11
P. 55.
P. 69.
Bret/octobre2015
4
La quantification de soi
Les pratiques de mesure de soi suivent deux directions :
1. L’auto-contrôle : c’est une confrontation entre soi-même et ses propres mesures à des
fins de perfectionnement de soi. La lassitude intervient rapidement hors le cas du sport.
2. L’écosystème de mesures : c’est un tableau de bord intelligent de ses propres besoins
La question est de savoir qui contrôle et gère ces données : une entreprise externe ou bien le
mesureur lui-même qui est dépositaire du self data. La gouvernance reste à trancher.
« Dans tous les cas, le partage de bases de données publiques, libres et ouvertes réclame une
gouvernance originale permettant de profiter des savoirs dont elles peuvent être le support,
sans favoriser des phénomènes de centralisation et sans menacer la vie privée des
personnes.12 »
Chapitre 4 : la société des calculs
La « tyrannie du centre »
Les sociétés du big data sont anti-paternalistes : les informations et les conseils ne sont plus
données par les leaders de façon uniforme pour tous mais par les algorithmes attentifs aux
préférences individuelles. Les promoteurs du big data espèrent débarrasser la société du
centre (Etat, religion, etc.) pour promouvoir une auto-organisation de la société. Toutefois, la
centralité subsiste, sous des formes nouvelles, notamment celle des GAFA.
La coordination virale de l’attention
Il y a un décalage entre promesse et réalité de la société des calculs :
• La promesse est celle d’une diversité et d’une variété extrêmes
• La réalité est celle d’une concentration sur quelques offres grâce au marketing viral
« La fabrication de la popularité numérique est désormais versatile, brusque et déroutante.
Elle privilégie la synchronisation, le mimétisme et l’obsolescence programmée.13 »
Toutefois face à l’économie de l’attention, les internautes ne sont pas seulement passifs et ne
sont sûrement pas démunis : ils peuvent élaborer des contre-stratégies.
La sécession des excellents
Google rêve d’un monde méritocratique où une compétition mondiale transparente donnerait
à peu d’élus aux places très enviables. Toutefois, cette société est très inégalitaire : elle passe
de la répartition de Pareto (les 20% les mieux dotés se répartissent 80% de la richesse) à la loi
de Matthieu (les 1% les mieux dotés accaparent 90% de la visibilité).
Digital Labor
Les algorithmes rêvent « aussi à une société dans laquelle ils donneraient aux personnes les
outils pour que les affinités puissent se reconnaître et s’auto-organiser. L’émancipation de la
société des catégories institutionnelles qui permettraient de l’articuler a facilité le déploiement,
pas le bas, de réseaux affinitaires dans lesquels les individus expriment leurs singularités sans
se plier aux assignations de rôle ou de statut.14 »
« C’est dans la constitution des coopérations et des fabrications collectives que, de façon
interactive, l’identité des personnes, leur personnalité dans le réseau, leurs compétences et
leurs qualités se construisent d’une manière qui n’est jamais figée.15
12
P. 78.
P. 92.
14
P. 96.
15
P. 97.
13
Bret/octobre2015
5
La société des algorithmes présente deux types d’aspects :
• positifs : les identités ne sont pas figées et ne sont pas données a priori.
• Négatif : la manipulation de la popularité, les inégalités très fortes.
Passer en manuel
La crainte de la dictature est infondée. Le problème n’est pas la prison des algorithmes mais
le nudge autrement dit l’influence prédictive d’outils qui orientent sans commander.
« Les pilotes d’avions ne conduisent plus vraiment les avions mais les surveillent.16 »
Ce que veut faire le big data c’est délester les classes supérieures des mille petites décisions à
prendre dans la vie quotidienne. Il s’agit de doter chacun d’un majordome. Le risque est
l’automatisation des actes de la vie quotidienne et l’incapacité à revenir en mode manuel
c’est-à-dire à se consacrer directement à des taches de production.
Il est essentiel de pouvoir conserver non seulement une maîtrise sur les machines et les
algorithmes mais la capacité à faire marche arrière et à modeler directement la réalité.
Conclusion : la route et le paysage
Les sociétés numériques n’ont plus de centre et font évoluer au sein d’une profusion
d’informations. Les algorithmes essaient de remédier à la désorientation en proposant des
parcours personnalisés probables.
Les sociétés numériques dispensent des embarras de la carte en proposant le GPS. Toutefois,
le GPS fait disparaître en large partie le paysage. Le véritable défi de la société des calculs est
de conserver le GPS tout en faisant apprécier le paysage.
« Plutôt que de dramatiser le conflit entre les humains et les machines, il est plus judicieux de
les considérer comme un couple qui ne cesse de rétroagir et de s’influencer mutuellement.
(…) Il est encore temps de dire aux algorithmes que nous ne sommes pas la somme imprécise
et incomplète de nos comportements.17 »
16
17
P. 102.
P. 103.
Bret/octobre2015
6
Téléchargement