Commission de l'éthique en science et en technologie

Qu’est-ce qu’un biais algorithmique?

 

Malgré leur neutralité apparente, de nombreux objets ou outils du quotidien sont porteur de biais, c’est-à-dire qu’ils reflètent les croyances et les préférences de leurs fabricants, mais aussi de leurs utilisateurs et, plus largement, de la société dont ils sont issus. Dans le cas de biais associés aux systèmes d’intelligence artificielle, on parlera de « biais algorithmiques ». 

Les biais algorithmiques ont fait l'objet de nombreuses études, notamment en raison de préoccupations relatives aux préjugés sexistes, racistes ou liés à l’âge, à l’origine ethnique, à la situation socioéconomique, au niveau d’éducation ou à l’orientation sexuelle. Plusieurs exemples ont notamment permis de constater que les algorithmes de traitement des langues naturelles pouvaient avoir tendance à reproduire certains biais sociétaux de cet ordre. On pense à l’agent conversationnel Tay, lancé par Microsoft en 2016 et fermé quelques heures plus tard en raison de nombreux contenus racistes et sexistes. Plus récemment, Meta a lancé et presqu’aussitôt supprimé son agent conversationnel Galactica, puisque plusieurs réponses du robot étaient empreintes de biais racistes et sexistes (en plus d’être erronées).

Les enjeux relatifs aux biais algorithmiques ne sont pas propres aux systèmes d’IA générative. Toutefois, ces derniers peuvent accentuer les risques associés aux biais, surtout lorsqu’ils sont utilisés de façon répétée.

D’où proviennent les biais algorithmiques?

 

Les biais peuvent être introduits à différentes étapes du cycle de vie des algorithmes. D’abord, les données qui servent à entraîner l’algorithme peuvent être à la source de nombreux types de biais dont certains sont potentiellement discriminatoires. Ces données peuvent notamment omettre certaines variables, ne pas refléter les caractéristiques de la population générale ou encore refléter des inégalités déjà présentes dans la société. À titre d’exemple, les jeux de données à partir desquels les systèmes d’IA générative sont entraînés sont majoritairement issues d’internet et représentent donc principalement les populations ayant accès à la technologie. Les jeux de données sont ainsi souvent biaisés en faveur des cultures occidentales, industrialisées et anglophones.

Les biais peuvent également provenir des systèmes d’étiquetage des données. À titre d’exemple, l’étiquetage des données est souvent réalisé par crowdsourcing à travers des services en ligne tels que Amazon Mechanical Turk ou WallFlower. Or, les travailleuses et les travailleurs de ces services sont surtout en Amérique du Nord et en Inde. Les étiquettes qu’ils attribuent aux données risquent par conséquent d’être biaisées en faveur des cultures de ces régions.

Finalement, les biais peuvent aussi provenir des décisions, conscientes ou inconscientes, des équipes qui développent les systèmes d’IA générative. On pense à l’exemple d’un agent conversationnel qui serait programmé pour générer des contenus reflétant certaines opinions ou certains principes moraux plus souvent que d’autres, pour fournir des informations appuyant les croyances préconçues des utilisatrices et des utilisateurs (biais de confirmation), ou encore pour formuler des réponses consensuelles, génériques et triviales, qui évacueraient d’office certaines dimensions du dialogue.

 Quels enjeux pour l’enseignement supérieur? 

 

Certains des biais introduits à différentes étapes du cycle de vie des algorithmes peuvent conduire à des pratiques discriminatoires. En cas d’utilisation répétée des outils d’IA générative en enseignement supérieur, la surreprésentation de certaines caractéristiques par rapport à d’autres pourrait amplifier des iniquités entre les personnes étudiantes, relatives notamment à l’égalité des chances entre les personnes provenant de différents groupes socio-économiques. Par exemple, en raison du biais anglophone présent dans de nombreux jeux de données, les personnes étudiantes maîtrisant bien la formulation de requêtes en anglais obtiendront très probablement une information de meilleure qualité que celles qui ne maitrisent pas l’anglais.

De plus, les outils d’IA générative peuvent contribuer à exposer les personnes étudiantes, de façon répétée, à des contenus biaisés en faveur ou au détriment de certaines personnes, certains groupes de personnes ou cultures, ce qui pourrait aller à l’encontre de la promotion de la diversité et de l’inclusion, en plus de perpétuer des stéréotypes. Une étude portant sur l’utilisation d’IA génératives d’images en architecture et en design a par exemple relevé que ces outils avaient parfois tendance à favoriser les codes de l’architecture occidentale au détriment de ceux représentant d’autres cultures. De même, au Québec, certains acteurs du milieu de l’enseignement supérieur[1] s’inquiètent quant à la restriction des réponses relatives aux Premiers peuples, craignant qu’elles contiennent des biais coloniaux et racistes qui pourraient nuire à la revitalisation de leurs cultures.

Enfin, au-delà des enjeux d’équité, les biais produits par les IA génératives soulèvent des risques relatifs à la neutralité des outils proposés aux personnes étudiantes. D’après une étude, ChatGPT aurait par exemple tendance à favoriser des opinions situées plus à gauche qu’à droite sur le spectre politique, bien que l’outil prétende à une neutralité en la matière. À l’inverse, le modèle BERT, développé par Google, aurait tendance à favoriser des positions plus conservatrices. Or, les interactions répétées avec les outils d’IA générative peuvent influencer le comportement, mais aussi les opinions des personnes qui les utilisent, ce que certaines et certains appellent le risque de « persuasion latente ». Ce phénomène pourrait nuire au souci de neutralité et de soutien au développement de l’autonomie de pensée des personnes étudiantes.

Plusieurs membres de la communauté de l’enseignement supérieur semblent réticents à intégrer les outils d’IA générative dans leurs activités pédagogiques, en raison des risques associés aux biais. Dans le contexte de leur utilisation grandissante, il semble effectivement important de sensibiliser les étudiants et les étudiantes à ces risques et de les inviter à diversifier leurs sources d’information. Comme nous le mentionnions dans notre plus récent avis réalisé avec le Conseil Supérieur de l’éducation, il importe toutefois de rappeler que ces risques devront être mitigés en amont, notamment par un encadrement robuste de ces systèmes ainsi que par des mécanismes d’audits.  

 

Ce texte est adapté de sections de l’avis « IA générative en enseignement supérieur : enjeux pédagogiques et éthiques » publié conjointement par la Commission de l’éthique en science et en technologie et le Conseil supérieur de l’éducation.

 

 

[1] Dans le cadre de la rédaction de l’avis « IA générative en enseignement supérieur : enjeux pédagogiques et éthiques », la Commission de l’éthique en science et en technologie et le Conseil supérieur de l’éducation ont réalisé une consultation ciblée auprès de certains acteurs clés du réseau de l’enseignement supérieur. L’exemple mentionné est issu de cette consultation.

[Image] Design Sans Titre (2)

Date de mise en ligne : 16 mai 2024

Soyez toujours informés de nos activités

Restez informés des enjeux actuels en science et en technologie en recevant nos éthiques hebdo, communiqués de presse et autres publications directement dans votre boîte courriel.

La Commission sur les réseaux sociaux
Participez à la discussion!
© Gouvernement du Québec, 2020
magnifiercrossmenuarrow-left