ChatGPT : le plagiat n’est que l’arbre qui cache la forêt

Le débat sur les promesses et les risques de l’intelligence artificielle a été bousculé le 30 novembre 2022, lorsque l’entreprise OpenAI a lancé ChatGPT. ChatGPT est une version améliorée et gratuite de GPT-3, un puissant système lancé en 2020 qui génère du texte. C’est ce qu’on appelle un modèle de langage. GPT-3 a d’ailleurs été utilisé pour rédiger un article d’opinion du Guardian, soutenant que l’IA ne détruira pas les humains.

En décembre, plus d’un million de personnes ont utilisé ChatGPT et publiaient en ligne des codes informatiques, des programmes de recettes hebdomadaires, des présentations de travail et des dissertations générés par le système.

ChatGPT et GPT-3 peuvent également résoudre des problèmes mathématiques, corriger la grammaire ou simplifier un texte compliqué. À l’heure actuelle, ChatGPT ne peut plus répondre à la demande ; le site n’a pas la capacité de supporter le nombre trop élevé d’utilisateurs.

Ayant été entraînés sur une grande quantité de données, notamment des sites Web, des livres et Wikipédia, ces systèmes peuvent imiter différents styles littéraires, et notamment expliquer dans un style biblique comment retirer un sandwich d’un magnétoscope, écrire des poèmes dans le style de Baudelaire ou produire des scénarios de scènes de l’émission à succès Friends.

Pour la première fois, la société saisit pleinement l’ampleur des transformations à venir. Pourtant, une grande partie du débat public sur ChatGPT se concentre sur la question du plagiat à l’école. La crainte, largement répandue, que les étudiants utilisent ChatGPT pour rédiger leurs dissertations distrait le public de questions beaucoup plus importantes.

Expertes en droit et politiques de l’intelligence artificielle, nous proposons d’apporter un éclairage sur les derniers systèmes d’IA et les véritables risques qu’ils présentent.

Bien comprendre les modèles de langage

Les modèles de langage sont des systèmes d’IA entraînés à estimer la probabilité qu’une séquence de mots apparaisse dans un texte. Ils sont utilisés de diverses manières, notamment dans les clavargades virtuels, les applications de messagerie et les logiciels de traduction. Pensez par exemple à votre application de messagerie qui vous suggère le mot suivant dans la phrase que vous avez commencée. Certains modèles de langage sont appelés grands modèles de langage, lorsqu’ils sont entraînés sur un nombre de paramètres très élevé, bien qu’il n’y ait pas de seuil précis pour ce nombre.

Ces modèles ont été révolutionnés par l’invention d’une nouvelle technologie, appelée transformeurs, en 2017. De nombreux modèles de langage impressionnants utilisant des transformeurs ont vu le jour, tels que GPT-3, Bloom, LaMDA, Megatron-Turing NLG et PaLM. Alors que ChatGPT a été entraîné sur 175 milliards de paramètres, PaLM de Google a été entraîné sur 540 milliards et peut expliquer des blagues et produire des raisonnements logiques sophistiqués. Les transformeurs ont également été utilisés pour créer des systèmes qui génèrent des images à partir de textes, comme DALL.E 2, qui peut produire une image crédible d’un koala qui joue (et marque !) au basketball. En fait, certains artistes utilisent désormais l’IA pour générer leurs œuvres.

Le débat sur le plagiat ne date pas d’hier

L’IA révolutionne actuellement le monde du travail. Des personnes n’ayant aucune formation en programmation peuvent produire des codes informatiques, n’importe qui peut générer des cartes, des diapositives, des dessins, des photos, des sites web, des textes ou des documents juridiques. Les professionnels de demain s’appuieront sans doute sur ces outils. Il convient donc de se poser la question suivante : quel est le but de l’éducation si ce n’est de préparer les étudiants à la société et au travail ?

Un débat sur le plagiat a eu lieu dans les années 90, lorsqu’internet s’est développé. Les professeurs d’université déploraient alors que leurs étudiants copient des informations provenant de sites web et journaux électroniques ou demandent de l’aide sur des forums en ligne. Bien entendu, le fait de ne pas citer ses sources est problématique ; c’est ce qu’on appelle du plagiat. Mais les premiers tricheurs qui utilisaient Internet ont appris à effectuer des recherches sur le Web et à trier les informations. En fait, le système scolaire s’est depuis adapté pour privilégier les aptitudes à recueillir, analyser, synthétiser et évaluer l’exactitude et l’utilité des informations. C’est l’une des raisons pour lesquelles les jeunes adultes d’aujourd’hui sont plus résistants à la désinformation que leurs aînés.

ChatGPT n’est que la pointe de l’iceberg

Aujourd’hui, l’IA introduit une révolution encore plus importante que celle provoquée par l’arrivée d’internet. ChatGPT n’est que l’un parmi de nombreux systèmes d’IA, déjà existants, qui vont transformer la société, et nous pouvons nous attendre à ce que d’autres apparaissent bientôt. Actuellement, les trois ingrédients des systèmes d’IA – la puissance de calcul, les algorithmes et les données – s’améliorent tous à un rythme effréné. ChatGPT n’est que la partie visible de l’iceberg, et nous devons préparer les étudiants aux changements sociaux importants que l’IA va entraîner.

Au lieu d’essayer d’empêcher les étudiants d’utiliser ChatGPT, nous devons réformer la façon dont nous enseignons. Cette réforme ne doit pas consister à trouver des devoirs astucieux pour lesquels les étudiants ne peuvent pas utiliser ChatGPT. Nous devons nous assurer que les étudiants peuvent utiliser les systèmes d’IA correctement.

ChatGPT est formé en partie à partir de rétroaction humaine. Les humains lisent la réponse produite par le système et jugent si elle est véridique et informative. Pour certains sujets, en particulier ceux qui requièrent une expertise approfondie, les réponses peuvent sembler plausibles aux yeux des humains, mais contenir des inexactitudes, qui sont ainsi renforcées. Au fil du temps, il deviendra encore plus difficile pour les humains de remarquer les écarts subtils par rapport à la vérité. Les enseignants pourraient ainsi créer des devoirs qui requièrent l’utilisation de ChatGPT, en demandant aux étudiants de vérifier des faits moins connus et d’apporter des éclairages plus subtils.

ChatGPT, c’est quoi exactement ?

Un appel à la prudence

Mais surtout, nous devons sensibiliser nos étudiants aux risques que présentent ces systèmes. Il a été démontré que les grands modèles de langage reproduisent les biais et préjugés, donnent des conseils potentiellement dangereux et facilitent la manipulation des consommateurs. Bientôt, ces modèles pourraient mener à la manipulation de masse. Ils peuvent également être à l’origine de violations légales de la confidentialité des données et des droits de propriété intellectuelle, sur lesquelles les étudiants doivent rester vigilants.

Qui plus est, les créateurs et les utilisateurs de systèmes d’IA reposant sur des transformeurs découvrent régulièrement que ces systèmes sont capables de tâches, parfois problématiques, dont ils n’avaient pas conscience. Par exemple, des chercheurs ont démontré qu’ils pouvaient utiliser un modèle de langage pour calculer la probabilité que des accusés récidivent, une tâche pour laquelle le modèle n’avait pas été intentionnellement entraîné. Les développeurs des premiers grands modèles de langage ne s’attendaient pas à ce que ceux-ci puissent faire de l’arithmétique ou du raisonnement. Cette imprévisibilité des tâches réalisables avec ces systèmes augmente le risque qu’ils soient utilisés à des fins néfastes ou se comportent contre l’intérêt de ses utilisateurs.

Les étudiants doivent se préparer. Ils doivent apprendre à évaluer les systèmes d’IA de manière critique, tout comme la génération précédente a dû apprendre à trier les informations en ligne. Ils peuvent également signaler tout bogue informatique ou comportement inattendu qu’ils constatent afin de contribuer à leur sécurité. En outre, ils devraient participer à des conversations démocratiques pour déterminer quelles valeurs et principes devraient guider les comportements des systèmes d’IA.

Et même s’ils n’ont pas besoin d’apprendre certaines compétences qui seront automatisées, ils devraient comprendre les bases du fonctionnement de l’IA et les risques qu’elle comporte.

ChatGPT : le plagiat n’est que l’arbre qui cache la forêt

Authors

Disclosure statement

Partners

Bien comprendre les modèles de langage

Le débat sur le plagiat ne date pas d’hier

ChatGPT n’est que la pointe de l’iceberg

Un appel à la prudence

Want to write?