Commission de l'éthique en science et en technologie

L’hebdomadaire américain TIME a récemment rapporté qu’OpenAI (la compagnie à l’origine de ChatGPT) avait eu recours à des travailleurs kenyans payés moins de 2 dollars de l'heure pour étiqueter des données destinées à entraîner l’agent conversationnel ChatGPT. L’étiquetage des données (data labeling) consiste à identifier différents types de données brutes (vidéos, images, sons, etc.) en leur accolant une étiquette, afin que ces données puissent servir à l'entraînement de systèmes d'intelligence artificielle (SIA). Par exemple, pour qu’un algorithme puisse reconnaître un chat, il doit être entraîné à partir d'un grand nombre d’images identifiées (« étiquetées ») comme représentant des chats. Dans le cas de ChatGPT, les données à étiqueter incluaient des propos violents, haineux ou décrivant des abus sexuels, l’un des objectifs étant d’apprendre au robot conversationnel à détecter et à filtrer ce type de contenus indésirables pour en préserver les utilisateurs.  

Une tension entre la protection des utilisateurs d’IA et le bien-être des travailleurs

Le travail d’étiquetage est essentiel au fonctionnement des SIA. Selon des estimations, il représente jusqu'à 80 % du temps nécessaire à l'élaboration de SIA. Ce travail contribue aussi à la protection des utilisateurs d’IA face à des contenus ou à des actions susceptibles d’être discriminatoires, dangereux ou autrement problématiques[1]. Il participe ainsi à minimiser les risques de malfaisance et de préjudice associés à l’utilisation de l’IA. Pourtant, les étiqueteurs de données souffrent souvent d’un manque de reconnaissance en raison de conditions de travail précaires et aliénantes. Ces travailleurs peuvent expérimenter une perte de sens et un sentiment de dévalorisation devant des tâches répétitives et extrêmement fragmentées dont la finalité ne leur est pas communiquée, notamment pour préserver le secret industriel. Un travailleur rapporte par exemple avoir passé 36 heures consécutives à étiqueter des coudes, des genoux et des têtes, sans savoir dans quel but. 

L’exposition répétée des étiqueteurs de données à des contenus indésirables peut également les rendre vulnérables à des problèmes de santé mentale, telles que des syndromes de stress post-traumatiques, de l’anxiété ou de la dépression. Ces enjeux sont d’ailleurs très similaires à ceux vécus par les modérateurs de contenus de Meta (anciennement Facebook), chargés de visionner et de supprimer les contenus interdits sur les réseaux sociaux de la compagnie avant qu'ils ne soient vus par les utilisateurs. Ces travailleurs sont susceptibles d’être confrontés de façon répétitive et prolongée à des contenus perturbants, tels que des vidéos de meurtres, de viols, de suicides et de violence sexuelle. Plusieurs d’entre eux dénoncent des conditions de travail toxiques. 

En dépit de ces risques pour leur bien-être, les étiqueteurs de données n’ont pas toujours accès à des ressources d’aide, ni la possibilité d’arrêter de travailler.

Un risque de renforcement des inégalités

OpenAI n’est pas la seule organisation technologique à sous-traiter, à faibles coûts, certaines tâches essentielles au fonctionnement des algorithmes à des compagnies employant des travailleurs de pays en développement. Google, Microsoft et IBM auraient par exemple confié du travail d’étiquetage à la même firme de sous-traitance qu’OpenAI, dénommée Samasource, opérant notamment au Kenya et en Ouganda. En plus des compagnies spécialisées telles que Samasource, l’étiquetage des données est souvent réalisé par externalisation ouverte (ou crowdsourcing) à travers des services en ligne comme Amazon Mechanical Turk ou WallFlower, dont les travailleurs se situent entre autres en Inde. Même si l’étiquetage des données existe aussi dans certains pays riches, cette pratique illustre l’une des tendances du développement de l'IA, à savoir la délocalisation d'une grande partie des emplois requérant peu de qualifications dans des pays en développement.

En 2022, on estimait que le marché mondial de l'étiquetage des données atteindrait 5 milliards de dollars US d'ici 2023. Selon certaines perspectives contestables, le développement de ce marché représente une occasion de développement économique pour les pays en développement et d’enrichissement pour leurs populations. La compagnie Samasource indique par exemple avoir recruté 1622 personnes en 2022, dont plus de la moitié étaient sans emploi ou dans une situation d’emploi précaire au cours des 6 mois précédant leur embauche. La même compagnie revendique plusieurs impacts sociétaux et environnementaux positifs, tels que le l’octroi de formations et d’emplois qu’elle qualifie de « dignes » à des personnes issues de communautés marginalisées. Selon cette perspective, l’étiquetage des données pourrait soutenir l’autonomisation des populations concernées.

Toutefois, les impacts positifs allégués par Samasource et d’autres firmes d’étiquetages sont souvent difficiles à vérifier. En effet, rares sont les processus d’évaluation externes de ces impacts et il n’existe pratiquement aucune réglementation ni pression des consommateurs autour des conditions de travail des étiqueteurs de données. Dans les faits, plusieurs firmes d’étiquetage ont été pointées du doigt en raison de conditions de travail jugées précaires, parfois considérées comme de nouvelles formes d’esclavagisme.

Dans la mesure où les profits et certains avantages sociétaux générés par l’IA sont déjà majoritairement répartis dans les pays riches, et où le développement de l’IA risque à terme de renforcer les inégalités entre les pays riches et ceux en développement, on peut se demander si les pratiques de sous-traitance du travail d’étiquetage, dans leurs formes actuelles, ne contribuent pas à maintenir ou à accroitre certaines de ces inégalités plutôt qu’à les diminuer. Ce phénomène constitue un enjeu en matière de justice distributive, les charges et les bénéfices du développement de l’IA étant inéquitablement répartis à l’avantage des pays riches.

Améliorer l’inclusion des travailleurs de l’ombre dans le développement de l’IA

Pour plusieurs observateurs, il semble paradoxal qu’une « armée de travailleurs précarisés » se cache derrière les réalisations d’une entité que l’on se représente précisément comme désincarnée, hautement automatisée. En réalité, l’invisibilisation des étiqueteurs de données et autres travailleurs de l’ombre contribue à une forme d’illusion concernant les capacités réelles des IA, souvent présentées comme sensationnelles.

Les compagnies qui développent l’IA ont, selon certains auteurs, une responsabilité d’améliorer l’inclusion de ces travailleurs dans le processus de production de l'IA, en plus de les reconnaître comme des artisans de la technologie à part entière. Cette inclusion implique entre autres de leur fournir des informations et des formations pour les aider à mieux comprendre leur travail et leur rôle dans une industrie qui génère plusieurs milliards de dollars. Ce partage de connaissances est particulièrement important considérant que le développement de l’IA s’accompagne d’une concentration des expertises au sein d’organisations majoritairement privées et situées dans des pays riches, rendant les savoirs et leur appropriation difficilement accessibles à des acteurs qui pourraient en bénéficier, comme les pays en développement.

De façon plus large, certains experts recommandent de placer les communautés marginalisées et touchées par l’IA au centre de la recherche sur celle-ci, afin de développer une technologie qui répondra à leurs besoins et tiendra compte de leurs savoirs.

 

[1] En 2018, un véhicule automatisé a par exemple percuté et tué une femme car il était incapable de considérer un objet comme un piéton (et plus largement, un humain) à moins que cet objet ne se trouve à proximité d’un passage piéton.

[Image] Étiquetage (1)

Date de mise en ligne : 24 janvier 2024

Soyez toujours informés de nos activités

Restez informés des enjeux actuels en science et en technologie en recevant nos éthiques hebdo, communiqués de presse et autres publications directement dans votre boîte courriel.

La Commission sur les réseaux sociaux
Participez à la discussion!
© Gouvernement du Québec, 2020
magnifiercrossmenuarrow-left