L’histoire commence en mai 2022 au Kenya : Daniel Motaung, un ancien modérateur de contenu de la société locale Samasource Ltd dépose alors une plainte (petition en anglais) contre ses dirigeants, ainsi que leurs donneurs d’ordre, de nombreux géants du web, dont Meta (la société mère de Facebook).
Dans cette plainte, Daniel Motaung accuse Sama et Meta de traite d’êtres humains, de démantèlement de syndicats et de ne pas fournir un soutien adéquat en matière de santé mentale.
Sama – leader dans le domaine de l’annotation – emploie des « étiqueteurs », qui ont pour mission de visionner et de taguer des contenus très éclectiques, souvent consternants, parfois extrêmement violents, provenant de divers réseaux sociaux et d’internet. L’objectif : modérer les contenus sur les réseaux sociaux et fournir des bases de données équilibrées pour l’apprentissage des intelligences artificielles.
Neuf mois, plus tard, le 6 février 2023, une première décision historique a été rendue par le juge kényan Jakob Gakeri : ce dernier a statué sur le fait que les cours kényanes étaient compétentes pour juger des sociétés étrangères dont des filiales se trouvent au Kenya, ainsi que la responsabilité des donneurs d’ordre. La procédure est en cours pour de nouvelles audiences.
C’est la première fois qu’une telle affaire est jugée dans les pays où vivent ces « forçats du numérique », et que le jugement se fait selon les termes de la plainte déposée. Une façon d’exposer à la planète entière les coûts humains du numérique.
Les termes de la plainte
Sama fait ainsi travailler des milliers d’opérateurs venant de toute l’Afrique subsaharienne pour modérer et étiqueter des contenus des géants du web comme Meta, Microsoft et OpenAI (la société à l’origine de ChatGPT) dans le cadre de « partenariats d’externalisation ». Cette dernière a d’ailleurs confirmé que les employés de Sama l’avaient aidé à filtrer certains contenus toxiques.
Le juge a entériné les termes de la pétition sur la violation des droits constitutionnels de ces opérateurs, et dénonce ainsi les conditions matérielles et psychologiques déplorables dans lesquelles ils travaillent.
Avec cette décision, le juge a aussi retenu le bien-fondé des termes de la demande qui, élaborant sur les salaires insuffisants pour vivre décemment à Nairobi, sur la détresse psychologique des salariés (le demandeur souffrant de troubles du stress post-traumatique – selon ses conseils) et sur la définition du Haut-Commissariat des Nations unies aux Droits de l’Homme (HCDH), soutenait que la situation vécue par les étiqueteurs pouvait être qualifiée d’exploitation en vue d’un gain économique, en d’autres termes, de « traite d’êtres humains »… d’autant plus que les soutiens psychologiques contractuellement annoncés n’auraient jamais été mis en œuvre (à nouveau, selon les attendus de la pétition et les termes des conseils du demandeur).
Meta a tenté de faire appel de cette décision du juge Gakeri afin d’éviter le procès, sans succès. De plus, suite à cette décision du juge Gakeri, le contrat de Sama avec Meta a été annulé, et le repreneur, Majorel, aurait essayé de blacklister les étiqueteurs de Sama. Deux cent d’entre eux ont porté plainte contre Meta et Sama pour licenciement abusif, dans une autre procédure.
Read more: Enquête : derrière l’IA, les travailleurs précaires des pays du Sud
L’étiquetage des données permet les services de modération du web et l’apprentissage des systèmes d’IA
Cette décision du juge Gakeri – et les suivantes – pourrait avoir un impact majeur sur les services de modération portés par les grandes plates-formes Internet, en particulier celles qui utilisent l’intelligence artificielle.
En effet, l’étiquetage précis des données est essentiel pour que les algorithmes d’intelligence artificielle puissent apprendre et arbitrer correctement leurs résultats : par exemple, si une image est étiquetée « route » alors qu’il s’agit d’un mur, l’IA équipant une voiture autonome pourrait se tromper et provoquer un accident.
Read more: Comment fonctionne ChatGPT ? Décrypter son nom pour comprendre les modèles de langage
L’étiquetage des données consiste à fournir des informations pour aider les machines à apprendre à partir de données brutes comme des images, des fichiers texte et des vidéos. Cependant, différents types d’apprentissages existent (supervisé, semi-supervisé, par renforcement…) et on a besoin de plus ou moins de données en fonction de l’expérience utilisateur escomptée.
L’étiquetage des données est source de valeur pour les acteurs du numérique
Ces informations viennent des bases de données constituées par les géants du net lors d’opérations d’étiquetage et de modération des contenus. Celles-ci sont censées prévenir et protéger tous les individus d’un accès non désiré à certaines données – comme une vidéo de décapitation par exemple – en créant et complétant les métadonnées, des données qui informent sur le contenu du fichier associé. Cette méthodologie a permis la création d’immenses bases de métadonnées, informées – et informant – en temps réel de la nature des contenus transitant par les réseaux.
Les métadonnées font le lien entre contenu et information, ce qui a permis de rénover le modèle économique des acteurs du web et des réseaux, qui ont réalisé la valeur de ces métadonnées. En effet, celles-ci peuvent servir à entraîner certains algorithmes d’intelligence artificielle : ce n’est pas un hasard si Facebook a changé son nom pour Meta. Les coûts de la modération sont colossaux, car pour que les algorithmes de modération soient précis et efficaces, les données doivent être soigneusement contrôlées et décrites – une tâche qui nécessite une analyse de haute qualité et donc onéreuse – et ce d’autant plus qu’elle doit faire l’objet de validations multiples afin d’éviter les biais des étiqueteurs.
[Plus de 85 000 lecteurs font confiance aux newsletters de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]
Sous réserve de maintenir la qualité, ces coûts se sont donc transformés en valeur pour les géants du net. En effet, un algorithme mal entraîné peut rapidement devenir toxique, biaisé ou même produire des hallucinations (c’est-à-dire créant des résultats qui ne correspondent à aucune donnée sur laquelle l’algorithme a été entraîné, ou qui ne suivent aucun autre modèle discernable). Ceci détériore la confiance dans les contenus, ce qui affecte l’audience et donc l’intérêt des annonceurs.
Du côté des algorithmes d’apprentissage des systèmes d’IA, comme leur crédibilité est avant tout fondée sur la capacité à fournir des réponses plausibles et précises, une tâche impossible sans données bien étiquetées.
Pour ces différentes raisons, une bonne qualité d’étiquetage nécessite un grand nombre d’étiqueteurs. En d’autres termes, cette industrie est à forte intensité de main-d’œuvre… d’autant qu’au moins 10 % à 15 % des données crées chaque jour sont nouvelles et uniques.
Quel modèle économique pour l’étiquetage ?
Les industriels cherchent à trouver un équilibre entre la nécessité d’innover et le coût de cette innovation. Par exemple, le fonctionnement de ChatGPT coûte 700 000 dollars par jour sans amélioration des modèles, alors que pour encourager l’adoption d’un outil numérique, on considère généralement que le prix doit être modéré pour l’utilisateur (environ 20 euros par mois pour ChatGPT+ par exemple).
Les coûts de main-d’œuvre (d’étiquetage) représentent une grande partie des dépenses dans ce secteur. Dans une approche un peu obsolète de la division du travail et de réduction des coûts, l’étiquetage a donc été sous-traité à des acteurs spécialistes comme Sama aux États-Unis ou Majorel au Luxembourg, qui disposent de filiales au Kenya.
Ce travail implique une exposition continue à des images, des sons, des contenus parfois insoutenables. Dans le cas Sama, il a été rémunéré à hauteur de 1,5 euro de l’heure après impôts – soit moins de la moitié du salaire moyen dans le secteur informatique kenyan qui est à 4,3 euros de l’heure.
Ce sont les conditions de cette sous-traitance qui sont à l’origine de la décision du Juge Gakeri.
Les impacts des décisions des juges
L’originalité de cette lecture juridique tient au fait qu’elle bat en brèche la stratégie usuelle des entreprises du secteur des technologies de l’information, qui sont de fait des entreprises de main-d’œuvre, mais qui refusent d’être qualifiées comme telles et dissimulent leurs importants besoins humains derrière une chaîne de sous-traitants – bien loin des productions sans humains fantasmées à la fin du XXᵉ siècle.
Cette pratique constitue un non-sens économique, puisque c’est la connaissance, la maîtrise sur toutes leurs phases des processus productifs et leur optimisation qui permettent la consolidation des marges et la pérennisation des modèles concernés.
Peut-être que la position du juge Gakeri apportera aux multinationales du web une aide précieuse en matière d’amélioration de leur rentabilité et de leur modèle économique. Toujours est-il que désormais, le donneur d’ordre sera autant responsable et justiciable que son prestataire en matière de conditions de travail, voire davantage.
On scrute aujourd’hui l’impact environnemental d’une structure dans toutes ses ramifications planétaires. Évaluera-t-on demain la responsabilité sociale des entreprises de la même manière, en considérant le processus de production des technologies de l’information comme un tout mondialisé ?
Au-delà de l’éthique des usages de l’IA, faut-il inventer une éthique des processus de sa fabrication ?
L’usage des technologies d’intelligence artificielle soulève déjà des questions éthiques, par exemple celle d’utiliser ou non la décision algorithmique pour établir des demandes de remboursement de prestations sociales.
On voit désormais émerger le besoin impérieux d’une éthique de la production des systèmes d’intelligence artificielle, car ici l’absence d’éthique sanctionne en temps réel la qualité et la confiance que l’on peut avoir dans les algorithmes produits. Si un algorithme mal entraîné peut demain faire dérailler un train ou une chaîne de production, la qualité de l’annotation devient non négociable – et cette activité demande mieux et plus que les conditions constatées au Kenya.
Le procès en cours depuis mars (puisque le juge a validé la compétence des cours kényanes dans ce domaine) changera peut-être la donne. D’autres secteurs confrontés à ces problématiques, la mode par exemple, ont amélioré leurs pratiques, la transparence de leurs fournisseurs et de leurs méthodologies de productions, notamment du fait d’opérations massives de « Name and shame » par la société civile, qui ont amené progressivement des utilisateurs finaux à se détourner des marques non vertueuses (sans pour autant que ces dernières ne le deviennent toutes).
Il n’est pas certain que, dans le domaine des technologies de l’information et d’intelligence artificielle, l’utilisateur final puisse effectuer ce type d’arbitrage, car ceux-ci deviennent de plus en plus partie intégrante des outils de productivité informatique utilisés quotidiennement par tous. En outre, les critères constituant les processus de production éthiques de l’IA demeurent à inventer. L’affaire en cours pourrait-elle constituer une bonne motivation pour penser à ces derniers ?