A l'université de Cergy, on apprend à comparer les écritures et à déceler la fraude documentaire. Université de Cergy-Pontoise

La linguistique appliquée aux enquêtes criminelles, comment ça marche ?

Le sujet de l’attribution d’auteurs n’est pas nouveau, notamment dans le champ des études littéraires. Il a été largement débattu et remis en discussions depuis l’essor des technologies numériques) et connaît une actualité certaine, notamment dans le cadre des études littéraires. Actuellement, le DIM Sciences du texte et connaissances nouvelles porte un projet (dirigé par Pierre Glaudes et Catherine Mayaux) à propos de l’œuvre critique de Barbey d’Aurevilly (projet PRADA : Projet de Recherche en Attribution d’Auteur).

Une des controverses les plus connues en France concerne les travaux de Dominique Labbé, chercheur spécialiste en statistique textuelle, qui a notamment publié Si deux et deux sont quatre, Molière n’a pas écrit Don Juan, ou encore l’article « Corneille dans l’ombre de Molière. Comment identifier un auteur ? ».

Selon la page Wikipédia à propos de la paternité des œuvres de Molière (et plus particulièrement la section consacrée à l’Étude statistique de Cyril et Dominique Labbé), Dominique Labbé serait arrivé à la conclusion que Corneille était la plume de seize des dix-huit comédies attribuées à Molière.

Plus récemment, deux chercheurs, Florian Cafiero et Jean‑Baptiste Camps ont publié un article intitulé « Why Molière most likely did write his plays » dans la revue Science Advances. Cet article a reçu un écho important dans la communauté et dans les médias, si bien que France Culture a par exemple titré un article « Deux chercheurs prouvent que Corneille n’a pas écrit les pièces de Molière »). La conclusion dudit article est en effet sans appel : « it is very unlikely that P. Corneille or his brother Thomas would have been Molière’s ghostwriters. As they were, after a century-old debate, the only option deemed plausible, these conclusions strongly substantiate the idea that Molière indeed wrote his own plays ». (« Il est très peu probable que P. Corneille ou son frère Thomas aient été les prête-plumes de Molière. Comme ils étaient, d’après un débat de 100 ans, les seuls autres auteurs plausibles, ces conclusions semblent appuyer l’idée que Molière est bien l’auteur de ses ouvrages »).

Mais la controverse ne s’arrête pas là, puisqu’à la suite de cet article, Dominique Labbé produit un nouveau texte, intitulé « Réponse à Florian Cafiero et Jean‑Baptiste Camps. Why Molière most likely did write his plays » (« Pourquoi Molière est très probablement bien l’auteur de ses ouvrages ») où il remet en question les méthodes utilisées par Cafiero et Camps.

Le débat à propos de la paternité de ces œuvres n’est donc pas clos, mais il peut nous interpeller puisque les méthodes et outils mobilisés dans ce contexte peuvent trouver une utilité dans d’autres domaines de la société. Aussi, le problème de l’attribution de la paternité d’un texte n’est plus un sujet exclusif au domaine littéraire. En particulier, ce champ de recherche, associé à de nouvelles techniques et au développement de travaux spécifiques, peut s’adapter aux besoins du système judiciaire.

De la linguistique à la criminalistique

La linguistique forensique est un champ de recherche de la linguistique appliquée dédié aux besoins du système de justice. Elle étudie la langue utilisée dans des contextes divers, notamment la langue des textes normatifs (lois, codes, règlements), la langue des procédures judiciaires (procès-verbaux, plaidoiries, débats devant un jury) et la langue en tant que trace ou en tant que preuve. Ce dernier comprend notamment les échantillons découlant de « délits langagiers » (par exemple la menace, le harcèlement, le plagiat, la diffamation ou le faux témoignage) ainsi que tout autre échantillon langagier présenté en tant que trace ou en tant que preuve. Très connue dans les pays de Common Law, où les techniques sont utilisées depuis les années 60 (Jan Svartvik, 1968), la linguistique forensique gagne de plus en plus du terrain en France.

Le style comme source de variation

La production linguistique, à l’image de toute communication, est un phénomène social qui s’adapte au contexte dans lequel il se produit. Il s’agit d’une tâche créative, très personnelle, qui prend forme non seulement grâce aux caractéristiques de l’auteur (son profil, ses préférences, ses habitudes), mais aussi à des éléments spécifiques à l’événement communicatif même : l’objectif du message, la nature de la relation entre l’auteur et le(s) destinataire(s), les conventions sociales du scénario en question et les conditions dans lesquelles la production a lieu.

Le résultat est donc un texte méticuleusement calibré par l’auteur (consciemment ou inconsciemment) selon ses habitudes et idiosyncrasies dans le contexte d’un scénario communicatif précis. Ce calibrage, possible grâce à la richesse et la souplesse propres à toute langue naturelle, permet d’avancer une même idée de différentes manières, sans que l’essentiel du message ne soit altéré. Sont des exemples de changements « non essentiels » les marqueurs de registre (l’utilisation de « tu » au lieu de « vous »), les marqueurs dialectaux (l’utilisation de « pain au chocolat » au lieu de « chocolatine ») et même les figures de style telles que la paraphrase ou la métaphore. Ces adaptations, qu’elles soient sémantiques, grammaticales, morphologiques, ou autre – peuvent contribuer aux différences existantes entre deux échantillons, sans pour autant toucher à l’idée centrale du message. Ce sont ces différences que l’on appelle, au sens large du terme, des éléments de variation linguistique.

Dans le cas de la stylistique, nous nous intéressons principalement aux éléments de variation « marqués », c’est-à-dire les variations qui divergent de la norme attendue dans un contexte précis. Par exemple, l’utilisation d’un mot peu fréquent lorsque d’autres synonymes, plus fréquents dans le contexte en question, sont possibles. D’autres marqueurs intéressants sont les tournures influencées par la connaissance d’une langue étrangère (l'utilisation du mot « expectative » à la place du mot ‘attente’ est assez fréquent chez les hispanophones, par exemple) ou des variantes régionales et dialectales qui divergent de la variante endémique. Le degré de dissonance entre les « normes » d’usage et les formes utilisées dans l’échantillon apportent aux mots leur degré de « markedness ».

Lorsqu’un élément de variation « marqué» devient habituel et inhérent à un auteur spécifique, il devient également un élément de ce que l’on appelle un idiolecte. L’idiolecte est un « dialecte personnel », propre à l’individu. Il est constitué de l’ensemble des habitudes linguistiques d’une personne, qu’elles soient à l’oral ou à l’écrit, et représente donc les particularités expressives que lui sont propres.

Bien que l’idiolecte soit inhérent à chaque personne, beaucoup de ses éléments sont loin d’être figés. Tout comme la langue, l’idiolecte est quelque chose de « vivant ». Il évolue avec le temps, il s’adapte à son contexte et il se voit influencé par des phénomènes sociaux, voire par le développement cognitif de la personne.

Le style d’un auteur, pour sa part, est la manifestation écrite de cet idiolecte. Défini par un ensemble d’éléments de variation, marqués et récurrents, ce sont les éléments stylistiques d’un auteur qui rendent ses textes uniques et originaux vis-à-vis d’autres textes de même nature : l’utilisation récurrente d’un mot lorsque des synonymes existent, l’utilisation de figures de style spécifiques dans des contextes particuliers ou alors une expression qui apparaît toujours dans le même contexte. Le style est donc au centre de l’intérêt du linguiste forensique.

Défis de l’analyse de style

Le style d’un texte est souvent idéalisé comme l’équivalent d’une empreinte digitale. Or, le style d’un auteur n’étant quelque chose de physique, il n’est pas judicieux d’assimiler la comparaison d’empreintes digitales à celle d’échantillons textuels. Par exemple, le style étant défini par les choix linguistiques « marqués » et habituels effectués par une personne dans le passé, il est quasiment impossible de l’analyser dans son intégralité (car il serait peu probable d’avoir un inventaire exhaustif de tous les choix linguistiques effectués par une personne). Une comparaison de style sera donc toujours une « comparaison d’empreintes partielles ».

Au-delà de ce problème d'échantillons parcellaires, l’analyse de style entraîne bien d’autres défis, notamment des problèmes concernant la comparabilité et la représentativité des échantillons. Bien que le style d’un auteur se veut unique et singulier, les éléments qui contribuent à cette singularité sont loin d’être statiques. L’idiolecte évolue avec le temps et varie selon le contexte communicatif. Cette variation temporelle et contextuelle suppose que les échantillons d’un même auteur ne sont pas toujours comparables (comment comparer une lettre anonyme écrite il y a 20 ans à un livre sorti récemment ?) ni représentatifs (quels éléments de style dans une liste de courses ?).

De façon analogue, l’identification des sources de variation n’est pas une tâche facile. Certaines variations sont plus liées aux besoins et conventions communicatives spécifiques à l’événement linguistique qu’au style d’un auteur particulier. Ceci est vrai pour les variations thématiques, les variations contextuelles et les variations liées aux conventions sociales. Par exemple, le style d’un auteur peut être restreint par une feuille de style. De façon similaire, tandis qu’une surreprésentation du mot « société » dans un message court et informel est peut-être remarquable, la surreprésentation du même mot dans un texte financier ne serait pas étonnant. Il est clair donc qu’un élément de variation ne constitue pas toujours un élément de style. Pour ces raisons, la variation est un sujet très discutée en linguistique forensique.

L’attribution d’auteur dans un contexte judiciaire

Si l’attribution d’auteur est peu utilisée par les juridictions françaises, elle peut être utile. Ses méthodes permettent de vérifier la paternité d’une lettre d’adieu, d’analyser des textes supposés plagiés ou de comparer le style de lettres anonymes ou de textes de revendication d’actes terroristes à des textes d’auteurs connus. Dans ce cadre, le rôle du linguiste forensique est de trouver, quand cela lui est possible, les éléments permettant d’identifier la paternité d’un texte.

Aujourd’hui les laboratoires de criminalistiques français analysent les documents sous les angles des supports (p. ex. le type de papier), des encres et des techniques d’impression. Par exemple, les techniciens du département Documents de l’Institut de Recherche Criminelle de la Gendarmerie Nationale (IRCGN) conduisent des examens physico-chimiques pour déterminer la composition des supports papetiers et des encres et, le cas échéant effectuer des examens comparatifs. Ils recherchent des traces latentes de foulage, déterminent les techniques d’impression et authentifient des documents. Ils peuvent aussi tenter de déterminer quel type de matériel, et parfois quelle imprimante, a été utilisé pour produire l’impression.

Par technique d’impression, nous pensons généralement aux impressions faites par des machines. Toutefois, l’écriture et la signature manuscrites rentrent dans cette catégorie. Contrairement aux autres techniques d’impression, il s’agit donc de productions humaines personnelles et circonstanciées.

C’est sans doute, avec la voix, un des objets d’étude criminalistique qui s’approche le plus de la production linguistique. Chacun personnalise le modèle d’écriture qui lui a été enseigné et développe une écriture qui lui est propre. Cette écriture évolue dans le temps et selon les circonstances. Il n’est pas possible de déterminer a priori le degré de variabilité de l’écriture d’une personne. Ce dernier peut être plus ou moins important et seul l’examen approfondi d’un échantillon suffisant et comparable peut permettre au technicien de déterminer si un écrit litigieux a été produit par une personne donnée (le scripteur).

La question de l’échantillonnage

Une problématique commune aux deux disciplines concerne l’échantillonnage, en particulier la quantité et la qualité des échantillons. En effet, afin de déterminer l’étendue des examens possibles il est nécessaire de mettre en lumière toutes les limites qui pourraient empêcher le technicien de se prononcer, ou limiter son avis.

Les variations de l’écriture d’une personne peuvent être le résultat de facteurs multiples, dont certains contextuels (par exemple, l’espace disponible sur le support ou l’instrument d’écriture utilisé) et d’autres propres au scripteur. Ces derniers sont variés et peuvent aussi bien comprendre des pathologies, ou encore l’état d’esprit. De plus, les techniciens sont confrontés à des déguisements ou à des imitations ce qui peut être source de limites considérables à l’analyse. Il n’en demeure pas moins qu’il est parfois impossible de constituer un échantillon adapté.

Les approches à l’attribution d’auteur

L’attribution d’auteur est avant tout un problème de comparaison de style. Le linguiste identifie les éléments « marqués» et récurrents d’un texte et les compare ensuite à des échantillons dont la paternité est connue. Pour ce faire, plusieurs approches sont possibles, dont deux très utilisées actuellement : l’analyse axée sur l'expertise et la classification basée sur la reconnaissance de formes. Dans l'approche dite « d'expertise », le linguiste fait appel à son expérience et ses connaissances théoriques pour identifier les éléments potentiellement « marqués » de chaque échantillon. Les données ainsi obtenues passent ensuite par une étape de vérification et d’étayage où elles sont vérifiées ou rejetées selon les informations recueillies. Enfin, les éléments vérifiés de chaque ensemble de textes sont comparés et un avis sur la similarité ou dissimilarité des échantillons est donné. Anciennement ces analyses étaient effectuées de manière complètement manuelle. Aujourd’hui les linguistes se servent souvent d’outils informatiques tels que les concordanciers ou les corpus informatisés pour faciliter l’exploration des échantillons.

Le problème de l’attribution d’auteur peut également s’aborder comme un problème de reconnaissance de formes – spécifiquement comme un problème de classification automatique de textes. Dans ce scénario, les auteurs deviennent les « classes » auxquelles les échantillons peuvent être attribués. Cette méthode gagne du terrain depuis l’essor de l’intelligence artificielle dans le traitement automatique de textes. Dans cette approche algorithmique, la qualité des résultats repose fortement sur l’échantillonnage, les caractéristiques analysées (« features ») et le classifieur sélectionnés par le linguiste.

Perspectives en France

L’attribution d’auteur est une tâche complexe qui demande une compréhension approfondie du fonctionnement de la langue et des différentes méthodes d’attribution utilisées. La linguistique forensique peut être un outil d’analyse concourant à la prise en compte d’un texte en tant que trace.

L’université de CY Cergy Paris, à travers le laboratoire AGORA et l’Institut des humanités numériques, avec l’aide des techniciens du département Documents de l’IRCGN, travaille au développement d’une méthodologie d’attribution d’auteur adaptée aux contextes judiciaires. Pour plus d’informations sur les différents projets de l’Institut des humanités numériques, nous vous invitons à visiter notre site.


La Région Île-de-France finance des projets de recherche relevant de Domaines d’intérêt majeur et s’engage à travers le dispositif Paris Région Phd pour le développement du doctorat et de la formation par la recherche en cofinançant 100 contrats doctoraux d’ici 2022. Pour en savoir plus, visitez iledefrance.fr/education-recherche.

Want to write?

Write an article and join a growing community of more than 110,800 academics and researchers from 3,637 institutions.

Register now