Dominique CARDON, A quoi rêvent les algorithmes ? Nos vies à l’heure des big data, éditions du seuil-La République des Idées Paris, octobre 2015 Cyrille Bret– octobre 2015 L’auteur, le contexte, la thèse, le plan de l’ouvrage L’auteur : sociologue spécialiste des nouvelles technologies travaillant pour Orange Le contexte : les débats sur les 4 projets de loi en France sur le numérique et la Digital Single Market Strategy de la Commission européenne (6 mai 2015) La thèse : le big data transforme la vie quotidienne mais aussi les représentations sociales « La thèse de ce livre est que, si les logiques de personnalisation s’installent aujourd’hui dans nos vies, c’est parce qu’elles calculent une forme nouvelle du lien social, la société des comportements, où se recompose la relation entre le centre de la société et des individus de plus en plus autonomes.1 » Le plan : 1. Typologie des 4 grandes formes d’algorithmes 2. Les 3 grandes modifications de la société et par le big data 3. Les mythes de la société des calculs 4. La lecture politique du big data Introduction : comprendre la révolution des calculs Chiffrer le monde La véritable rupture du big data est que le monde du calcul rend « tout mesurable ». Alors que, traditionnellement, les statistiques étaient l’apanage des grandes organisations (Etats), depuis la révolution libérale, elles se répandent partout dans les micro-groupes. « Les instruments statistiques sont devenus une technique de gouvernement. (…) L’objectif de ces indicateurs est moins de connaître le réel que de conduire les conduites.2 » Les algorithmes, autrement dit les programmes de traitement automatique des informations sont destinés à aider à s’orienter dans le monde chiffré. Ouvrir la boîte noire Si les effets des algorithmes sont bien connus, leurs contenus sont une boîte noire. Le sociologue doit les éclaircir pour éviter les déterminations imposées. « Une radiographie critique des algorithmes est un enjeu démocratique aussi essentiel qu’inaperçu.3 » Chapitre 1 : quatre familles de calcul numérique Le big data a successivement produit quatre manières de produire de la visibilité avec du calcul. Elles se distinguent par la place du calculateur par rapport au monde : 1. A côté des données numériques : les mesures d’audience établissent des popularités. 2. Au-dessus des données numériques : Google se place au-dessus du web pour établir l’autorité des sites en fonction des liens qu’ils échangent. 3. Dans les données numériques : les mesures de réputation sur les réseaux sociaux. 1 P. 16. P. 9-10. 3 P. 13. 2 Bret/octobre2015 1 4. En dessous des données numériques : les mesures prédictives sont basées sur les comportements réels et non sur les déclarations. Chacun de ces types de calcul correspond à un type de besoin, présente des avantages et des inconvénients et emporte avec lui des effets sociaux et politiques particuliers. Famille 1 - A côté du web : l’imprécise popularité des clics La fréquentation des sites a d’abord été mesurée par le nombre de clics. Il y a une parenté avec le processus démocratique : 1 clic = 1 vote = 1 opinion =1 citoyen. L’audience des sites web sert essentiellement aux acteurs de la publicité et est mesurée de plusieurs façons : 1. User centric (centrées sur l’utilisateur) : un panel représentatif est suivi et les campagnes de publicité sont pensées en fonction de ses préférences exprimées. On connaît les profils mais mal les comportements. 2. Site centric centrées sur le site) : les webmestres mesurent la fréquentation réelle du site. Mais la fréquentation des sites peut être manipulée. On constate les comportements mais les profils restent mal connus. 3. Cookie centric : le cookie est un fichier informatique déposé sur le site consulté par l’ordinateur de l’Internaute. C’est le cheval de Troie des publicitaires. Quel que soit le mode de calcul, la mesure d’audience porte uniquement sur la fréquentation et non pas sur les actes : achats, votes, etc. Famille 2 - Au-dessus du web : l’autorité des méritants Pour donner une image qualitative de la visibilité sur Internet, Google (et Page Rank son algorithme) enregistre les échanges entre internautes sans les influencer. C’est le nombre de références croisées qui fait l’autorité d’un site. C’est un principe inhérent aux communautés scientifiques : la reconnaissance par les pairs. La méritocratie élitiste remplace la démocratie. Deux reproches récurrents sont adressés à ce système : 1. La centralisation : les sites les plus visibles reçoivent le plus de clics. La mesure de l’autorité se dégrade en mesure de la popularité. 2. L’effet censitaire : font autorité les internautes les plus actifs qui produisent des liens hypertextes. Cela exclut certaines voix de l’Internet, notamment celles des réseaux sociaux (jeunes, peu éduqués, classes populaires). « La voix de ces nouveaux internautes actifs peut difficilement être ignorée des classements.4 » Famille 3 - A l’intérieur du web : la fabrique de la réputation Ce sont les internautes qui se mesurent eux-mêmes les uns les autres, en répertoriant les approbations. La réputation débouche sur l’influence quand elle atteint un seuil de « suiveurs » (followers). Toutefois, ce modèle de mesure a plusieurs limites : • l’influence peut être fabriquée par des stratégies marketing • les notes sont peu discriminantes et défient l’interprétation car la signification des notes ou des approbations n’est pas standardisée • il y a un décalage entre les contenus explicites d’approbations et les choix réels. Par exemple, les notes les plus hautes sont données à des contenus valorisés socialement mais les achats se portent vers les contenus populaires (films d’auteurs vs. Blockbusters sur Netflix) 4 P. 29. Bret/octobre2015 2 Famille 4 - Au-dessous du web : la prédiction par les traces Il s’agit « d’enregistrer le plus discrètement possible les traces de ce que font les internautes.5 ». Cette famille de mesure repose sur le machine learning autrement dit sur la production de probabilités sur les comportements futurs à partir des comportements passés d’individus ayant des paramètres comparables. Le but est de déboucher sur des recommandations de choix (Amazon, Netflix, etc.). C’est la base du retargeting publicitaires ou de la publicité de recommandation à partir non des préférences exprimées mais des comportements effectifs. « Comme un sapradrap collé au doigt, le retargeting est aujourd’hui une des formes dominantes de la publicité numérique. Dans un marché où les revenus sont en réalité très bas, il offre à court terme une efficacité légèrement supérieure à une publicité non ciblée, tout en détruisant à long terme la confiance des clients.6 » Chapitre 2 : la révolution dans les calculs Trois ruptures du big data modifient les représentations de la société par elle-même : 1. les mesurés sont devenus eux-mêmes mesureurs et calculateurs 2. les représentations sociales collectives cèdent le pas à l’individualisation des profils 3. on délaisse la recherche des causes pour ne plus s’occuper que des corrélations Le but du big data est de « calculer la société sans catégoriser les individus.7 » La manipulation du réel Les acteurs essaient de manipuler les indicateurs ce qui altèrent leur validité. « La réflexivité des compteurs a non seulement rendu les acteurs de plus en plus stratèges mais elle a aussi rendu le réel de plus en plus manipulable.8 » Le débordement des catégories Le big data aboutit à la contestation des catégories socio-professionnelles ainsi qu’au remplacement des sociologues par les économètres. Le but de la statistique sociale était de catégoriser le réel en identifiant les origines, les revenus et les modes de vie. Le but de l’économétrie est d’individualiser au maximum la description du réel. Calculer au plus près Les individus ne veulent plus se laisser enfermer dans les catégories. « Les patients ne veulent plus être réduits à leur maladie, les clients à leurs achats, les touristes à leurs trajets, les militants à leur organisation, les spectateurs au silence, etc.9 » Corrélations sans causes L’ambition des gourous de la Silicon Valley est de se passer de modèle explicatif : il s’agit de calculer des corrélations sans poser un modèle préalable. Il s’agit de faire l’économie des sciences de l’homme en renonçant à la recherche des causes pour se contenter de relever les corrélations entre des faisceaux de caractéristiques individuelles. Les idéaux types des sociologues cèdent la place aux patterns révisables des publicitaires. 5 P. 33. P. 37. P. 40. 8 P .43. 9 P. 47. 6 7 Bret/octobre2015 3 Cela conduit à une inversion de la construction sociale : on ne part plus de grands cadres pour aller vers les individus. On part des comportements individuels pour en inférer des comportements probables. Les grands récits collectifs sont balayés. Chapitre 3 : les signaux et les traces Le big data a un crédo scientiste : il suffirait de libérer les données pour que les vérités mathématiques sous-jacentes au réel social apparaissent et que les sociétés s’améliorent. Il est aussi naïvement behavioriste. « Si notre monde est imparfait, c’est que nous manquons de données pour le corriger.10 » Les nouveaux gisements de données C’est exact : il existe de nombreuses bases de données sous-exploitées ou mal exploitées mais plusieurs mythes du big data doivent être écartées : • Il n’existe pas de données brutes mais seulement des faits déjà interprétés • Il n’existe pas de signification des données sans schéma général de questionnement sur elles. Par exemple, les statistiques de l’assurance maladie servent à identifier les médecins qui sur-prescrivent mais pourraient également aider les patients à dénoncer les injustices sanitaires, interrogées différemment. Des « machines statistiques » Avec le big data, l’intelligence artificielle évolue : il ne s’agit plus de rendre les machines intelligentes par imitation de la compréhension humaine. Il s’agit de les rendre plus adaptées par traitement de masses d’informations et production de probabilités. Par exemple, la traduction automatique n’essaie plus de faire comprendre le sens des mots mais de prévoir les combinaisons de mots les plus probables à partir de la plus grande quantité possible de textes. C’est le modèle de Google Translate. Le signal et la trace Un algorithme fonctionne a plein quand non seulement il prévoit les comportements mais même quand il les oriente en combinant : • les signaux ou contenus informationnels, sémantiques, intentionnels : les mots • les traces de comportement : trace GPS, clics, etc. Le ressort est invariable : sur des masses de consommateurs, les habitudes de consommation sont répétitives : j’aimerai tel livre car d’autres ayant des habitudes comparables aux miennes aiment tel livre. Les moteurs aboutissent souvent à la trivialité. Un comportementalisme radical Les algorithmes prédictifs ont tendance à enfermer les internautes dans une bulle (filter bubble) de préférence : ainsi, sur Facebook: les internautes de gauche amis avec des amis de gauche reçoivent des nouvelles de gauche. En somme l’individu ne trouve dans les modèles de prédiction que ce qu’il y met lui-même. « Le paradoxe des nouveaux calculs est que, refusant la prescription paternaliste des médias, les individus désormais calculés à travers leurs traces ont des conduites régulières.11 » La révolution des algorithmes pourrait donc bien ne pas tenir deux de ses promesses : • Renforcer le conformisme plutôt que d’ouvrir les individus vers de l’inconnu • Concentrer la demande sur de grands groupes plutôt que sur des indépendants 10 11 P. 55. P. 69. Bret/octobre2015 4 La quantification de soi Les pratiques de mesure de soi suivent deux directions : 1. L’auto-contrôle : c’est une confrontation entre soi-même et ses propres mesures à des fins de perfectionnement de soi. La lassitude intervient rapidement hors le cas du sport. 2. L’écosystème de mesures : c’est un tableau de bord intelligent de ses propres besoins La question est de savoir qui contrôle et gère ces données : une entreprise externe ou bien le mesureur lui-même qui est dépositaire du self data. La gouvernance reste à trancher. « Dans tous les cas, le partage de bases de données publiques, libres et ouvertes réclame une gouvernance originale permettant de profiter des savoirs dont elles peuvent être le support, sans favoriser des phénomènes de centralisation et sans menacer la vie privée des personnes.12 » Chapitre 4 : la société des calculs La « tyrannie du centre » Les sociétés du big data sont anti-paternalistes : les informations et les conseils ne sont plus données par les leaders de façon uniforme pour tous mais par les algorithmes attentifs aux préférences individuelles. Les promoteurs du big data espèrent débarrasser la société du centre (Etat, religion, etc.) pour promouvoir une auto-organisation de la société. Toutefois, la centralité subsiste, sous des formes nouvelles, notamment celle des GAFA. La coordination virale de l’attention Il y a un décalage entre promesse et réalité de la société des calculs : • La promesse est celle d’une diversité et d’une variété extrêmes • La réalité est celle d’une concentration sur quelques offres grâce au marketing viral « La fabrication de la popularité numérique est désormais versatile, brusque et déroutante. Elle privilégie la synchronisation, le mimétisme et l’obsolescence programmée.13 » Toutefois face à l’économie de l’attention, les internautes ne sont pas seulement passifs et ne sont sûrement pas démunis : ils peuvent élaborer des contre-stratégies. La sécession des excellents Google rêve d’un monde méritocratique où une compétition mondiale transparente donnerait à peu d’élus aux places très enviables. Toutefois, cette société est très inégalitaire : elle passe de la répartition de Pareto (les 20% les mieux dotés se répartissent 80% de la richesse) à la loi de Matthieu (les 1% les mieux dotés accaparent 90% de la visibilité). Digital Labor Les algorithmes rêvent « aussi à une société dans laquelle ils donneraient aux personnes les outils pour que les affinités puissent se reconnaître et s’auto-organiser. L’émancipation de la société des catégories institutionnelles qui permettraient de l’articuler a facilité le déploiement, pas le bas, de réseaux affinitaires dans lesquels les individus expriment leurs singularités sans se plier aux assignations de rôle ou de statut.14 » « C’est dans la constitution des coopérations et des fabrications collectives que, de façon interactive, l’identité des personnes, leur personnalité dans le réseau, leurs compétences et leurs qualités se construisent d’une manière qui n’est jamais figée.15 12 P. 78. P. 92. 14 P. 96. 15 P. 97. 13 Bret/octobre2015 5 La société des algorithmes présente deux types d’aspects : • positifs : les identités ne sont pas figées et ne sont pas données a priori. • Négatif : la manipulation de la popularité, les inégalités très fortes. Passer en manuel La crainte de la dictature est infondée. Le problème n’est pas la prison des algorithmes mais le nudge autrement dit l’influence prédictive d’outils qui orientent sans commander. « Les pilotes d’avions ne conduisent plus vraiment les avions mais les surveillent.16 » Ce que veut faire le big data c’est délester les classes supérieures des mille petites décisions à prendre dans la vie quotidienne. Il s’agit de doter chacun d’un majordome. Le risque est l’automatisation des actes de la vie quotidienne et l’incapacité à revenir en mode manuel c’est-à-dire à se consacrer directement à des taches de production. Il est essentiel de pouvoir conserver non seulement une maîtrise sur les machines et les algorithmes mais la capacité à faire marche arrière et à modeler directement la réalité. Conclusion : la route et le paysage Les sociétés numériques n’ont plus de centre et font évoluer au sein d’une profusion d’informations. Les algorithmes essaient de remédier à la désorientation en proposant des parcours personnalisés probables. Les sociétés numériques dispensent des embarras de la carte en proposant le GPS. Toutefois, le GPS fait disparaître en large partie le paysage. Le véritable défi de la société des calculs est de conserver le GPS tout en faisant apprécier le paysage. « Plutôt que de dramatiser le conflit entre les humains et les machines, il est plus judicieux de les considérer comme un couple qui ne cesse de rétroagir et de s’influencer mutuellement. (…) Il est encore temps de dire aux algorithmes que nous ne sommes pas la somme imprécise et incomplète de nos comportements.17 » 16 17 P. 102. P. 103. Bret/octobre2015 6