Menu Close

« Un $ % de programme sexiste » : comment détecter et corriger les biais des IA

Si un algorithme est formé à partir d’un ensemble de données biaisées de décisions passées prises par des humains, il hériterait et perpétuerait les préjugés de ces humains. Shutterstock

La sortie commerciale d’une carte de crédit signée Apple, en août 2019, n’a pas tardé à susciter de nombreuses questions urgentes. Le Danois David Heinemeier Hansson, auteur et développeur réputé, a annoncé dans un tweet que sa femme et lui avaient tous deux fait une demande pour l’Apple Card :

« Mon épouse et moi déclarons nos impôts conjointement et nous sommes mariés depuis longtemps sous régime communautaire, écrivait-il. Pourtant, l’algorithme de la boîte noire d’Apple pense que j’ai droit à une limite de crédit 20 fois plus élevée qu’elle. »

Il n’a pas hésité à traiter l’Apple Card de « programme sexiste », en y ajoutant un juron pour faire bonne mesure.

Goldman Sachs, la banque à l’origine de la carte, a défendu son produit en expliquant que l’algorithme utilisé par l’intelligence artificielle (IA) pour déterminer la solvabilité d’un client ne prenait pas en compte le sexe. Un argument qui peut sembler convaincant… si l’on omet le fait que même en l’absence de données liées au sexe, les algorithmes utilisent des informations en corrélation avec le sexe (des « proxys » de genre, comme l’endroit où vous faites vos achats) qui peuvent engendrer des apparitions imprévues de biais injustes.

Même le co-fondateur d’Apple, Steve Wozniak, et sa femme ont signalé avoir été victimes de ce biais. L’algorithme estimait que Steve Wozniak méritait 10 fois plus de crédit que son épouse, en dépit du fait que le couple partageait ses actifs et ses comptes bancaires. Un véritable pavé dans la mare qui a poussé les régulateurs de New York à ouvrir une enquête afin d’étudier l’algorithme de l’Apple Card.

Données biaisées, résultats biaisés

L’IA et l’apprentissage automatique (« machine learning ») sont capables de traiter d’énormes quantités de données plus efficacement que les humains. Bien utilisée, l’IA a le pouvoir d’éradiquer la discrimination contre certains groupes sociaux. Pourtant, dans la pratique, les cas de biais algorithmiques ne sont pas rares, comme l’a démontré l’affaire de l’Apple Card ci-dessus.

Les origines de ces biais sont variées. Par exemple, si un algorithme de score de solvabilité assimile à partir d’un ensemble de données biaisées issues de décisions passées prises par des humains (comme des agents de crédit sexistes ou racistes, entre autres), l’algorithme risque d’hériter et d’entretenir ces inégalités. Et comme les IA utilisent des milliers d’observations ainsi que des méthodes opaques pour prendre des décisions (parfois décrites comme une boîte noire), les biais algorithmiques peuvent survenir de façon totalement fortuite et échapper aux contrôles.

Sur les marchés du crédit, qui sont au centre de notre étude, ce manque d’équité peut entraîner des préjudices systématiques envers les groupes déjà défavorisés (à cause de leur sexe, race, citoyenneté ou religion). Ces groupes risquent alors d’essuyer des refus de prêt déraisonnables, de recevoir des offres avec des taux d’intérêt désavantageux ou de se voir imposer des limites de crédit basses. De telles inégalités risquent aussi d’exposer les institutions financières qui utilisent ces algorithmes à des répercussions légales et à des atteintes à leur image.

Mettre en place un « feu de signalisation »

Mes collègues chercheurs, Christophe Hurlin et Sébastien Saurin, et moi-même avons conçu une définition statistique de l’équité ainsi qu’une méthode pour la mesurer. Pour garantir cette équité, les décisions prises par un algorithme ne devraient être calculées que sur la base d’attributs en relation avec les variables cibles, comme la durée d’emploi ou les antécédents de crédit, sans prendre en compte des données comme le sexe.

En nous appuyant sur la théorie statistique, nous avons élaboré une formule capable de calculer une mesure d’équité ainsi qu’un seuil théorique au-dessus duquel une décision serait considérée comme inéquitable.

Pour évaluer un algorithme réel, nous pouvons ainsi traiter ses données et calculer son degré d’équité, puis le comparer à la valeur théorique (ou seuil). Cette procédure permet ensuite d’indiquer si un algorithme a le « feu vert » (quand la valeur d’équité calculée est inférieure au seuil établi) ou le « feu rouge » (quand la valeur d’équité calculée est supérieure au seuil).

Dans le cas où un problème serait détecté, nous proposons ensuite des techniques pour identifier les variables qui génèrent le biais, même quand les processus de l’algorithme sont impénétrables. Pour cela, nous avons développé de nouveaux outils d’explicabilité de l’IA. Enfin, nous suggérons des manières d’atténuer le problème en traitant les variables incriminées.

Application dans divers domaines

D’un point de vue purement pratique et commercial, il est crucial que les banques comprennent les répercussions, et les conséquences potentiellement inattendues, de la technologie qu’elles utilisent. Elles risquent en effet de se mettre à dos la justice et l’opinion publique dans une industrie où la réputation et la confiance sont des éléments clés.

Bien que notre recherche se concentre sur les scores de solvabilité, la méthodologie utilisée pourrait s’appliquer dans de nombreux autres contextes qui font appel à des algorithmes d’apprentissage automatique, comme la justice prédictive (condamnation, probation), les décisions de recrutement (analyse des CV et des vidéos de candidats), la détection des fraudes et la tarification des polices d’assurance.

L’utilisation de technologies d’apprentissage automatique soulève de nombreuses questions d’ordre éthique, légal et réglementaire. Ces méthodes d’apprentissage automatique, qui sont souvent difficiles à interpréter, peuvent engendrer des biais imprévus et invisibles qui désavantagent des populations entières sur la base de leur ethnie, religion, sexe, race ou de tout autre critère social.

Les opportunités mais aussi les risques qui découlent des techniques d’apprentissage automatique requièrent indubitablement l’implémentation d’une nouvelle forme de régulation, comme une certification des algorithmes et des données utilisées par les entreprises et les institutions.


Cette contribution, publiée en anglais sur le site Knowledge@HEC, s’appuie sur l’article de Christophe Pérignon intitulé « The Fairness of Credit Scoring Models », coécrit avec Christophe Hurlin et Sébastien Saurin de l’Université d’Orléans.

Want to write?

Write an article and join a growing community of more than 125,200 academics and researchers from 3,985 institutions.

Register now