J’ai testé un outil de détection de ChatGPT : j’ai perdu mon temps

Selon l’enquête de l’auteur, 41 % des textes produits en tout ou en partie par GPT-3 ont été classés comme ayant probablement été rédigés par un être humain. Il est donc vain de combattre l’IA par l’IA.

Détecter la bullshit est une déformation professionnelle. Je suis journaliste depuis 35 ans et prof depuis 15 ans. J’ai siégé au comité des infractions académiques de ma faculté. J’en ai vu de toutes les couleurs. ChatGPT m’écœure autant qu’il m’ébahit.

On nous dit qu’il faut faire davantage d’évaluations en personne. Fort bien. Mais allez dire ça aux universités (et aux universitaires) qui ont pris goût au télé-enseignement. Tout le monde cherche des solutions magiques pour s’assurer que les textes qu’on évalue n’ont pas été pondus par ChatGPT ou un autre système de rédaction automatique.

Tester la machine

J’ai testé un outil qui prétend le faire. GPTZero « estime les probabilités qu’un document ait été rédigé par un grand modèle de langue ». Son créateur, Edward Tian, est un étudiant originaire de Toronto. Il a complété à Princeton une majeure en informatique avec mineure en journalisme. Il a travaillé pour Bellingcat, formidable site de journalisme d’enquête et de données. C’est un parcours inspirant et auquel je peux m’identifier.

J’ai testé son outil avec un corpus de 900 textes :

300 textes en français
300 textes en anglais
300 textes traduits du français vers l’anglais à l’aide de l’API de DeepL.

Dans chaque cas, les textes sont composés de trois sous-groupes :

100 articles écrits par des journalistes, publiés au cours des cinq dernières années. Les articles en français ont été moissonnés sur le web par des étudiantes et des étudiants de mon cours de journalisme de données 2. J’ai pour ma part moissonné les articles en anglais sur le site web du Globe and Mail.
100 articles générés en partie par GPT-3. J’ai pris la première partie d’autres articles en anglais et en français et j’ai demandé à GPT de les compléter avec une commande (prompt) ressemblant à : « Voici le début d’un article, dont le titre est X. Complétez-le avec 1500 à 2500 caractères, pour publication dans un journal canadien. »
100 articles générés entièrement par GPT-3 avec une commande qui ressemblait à : « Rédigez, pour publication dans un journal canadien, un article de 4500 à 5000 caractères dont le titre est X. »

Dans les cas des articles générés en tout ou en partie par GPT-3, la valeur de « X » était le titre d’un véritable article publié dans un journal en anglais ou en français.

J’ai enfin soumis chacun de ces 900 textes à une analyse par GPTZero.

Des résultats mitigés

D’abord, en français, les résultats sont pitoyables. Le créateur de GPTZero dit bien que son outil a été mis au point surtout à l’aide de textes en anglais. C’est pour cela que j’ai traduit en anglais tout mon corpus en français.

GPTZero fournit notamment, pour chaque texte qu’il analyse, un score de probabilité qu’il ait été produit par un système d’intelligence artificielle. En fonction de ce score, j’ai donc classé mes textes traduits en cinq catégories :

IA++ : Il est très probable que le texte ait été produit par un système d’IA (si le score est supérieur à 95,0 %)
IA+ : Il est probable que le texte ait été produit par un système d’IA (si le score varie entre 75,0 % et 95,0 %)
? : Inclassable (si le score varie entre et 1,0 % et 75,0 %)
Hum+ : Il est probable que le texte ait été produit par un être humain (si le score varie entre 0,00001 % [oui, un cent-millième de pourcent] et 1,0 %)
Hum++ : Il est très probable que le texte ait été produit par un être humain (si le score est inférieur à 0,00001 %)

Le tableau ci-dessous montre comment l’outil a classé les textes traduits en fonction de la façon avec laquelle ils ont été rédigés.

Classement GPTZero	Journaliste	Moitié journaliste, moitié GPT-3	GPT-3	*Total*
IA++	1	9	49	59
IA+	2	11	18	31
?	6	14	17	37
Hum+	13	24	8	45
Hum++	78	42	8	128
Total	100	100	100	300

L’outil fait un travail qui n’est pas si mauvais. Son créateur dit qu’il préfère se tromper en classant un texte produit par l’IA comme ayant été probablement rédigé par un être humain que l’inverse. Mes résultats montrent que c’est effectivement ce qu’a fait GPTZero.

Mais il n’en demeure pas moins que dans mon échantillon, 41 % des textes produits en tout ou en partie par GPT-3 ont été classés comme ayant probablement été rédigés par un être humain.

J’ai donc perdu mon temps pour deux raisons. D’abord, la qualité du texte généré par les grands modèles linguistiques, aujourd’hui, rend GPTZero inconstant. Il détecte la plupart du temps, mais pas toujours.

Ensuite, la technologie évolue à une vitesse vertigineuse. À peine avais-je complété mon test, le week-end du 11 et 12 mars, qu’une version plus performante de GPT, GPT-4, était rendue publique deux jours plus tard. Je l’ai essayée et pour le moment, je constate que c’est un producteur de bullshit encore plus éloquent que la version précédente, basée sur GPT-3.5.

À quoi bon essayer de combattre l’IA par l’IA ? Plus j’essaie, plus je me rends compte que c’est une espèce de course aux armements qui ne mène nulle part. Comme toutes les technologies avant elle, la rédaction automatique va prendre sa place dans nos vies de tous les jours. Ce sera à nous, êtres humains, de nous creuser les neurones pour l’intégrer, au mieux, dans nos pratiques pédagogiques et de légiférer au besoin, afin d’en mitiger les effets délétères.

Dans l’esprit de la science ouverte, le code et les données de cette expérience sont accessibles sur le compte github de l’auteur.

J’ai testé un outil de détection de ChatGPT : j’ai perdu mon temps

Author

Disclosure statement

Partners

Tester la machine

Des résultats mitigés

Want to write?