NOS CONSEILS - Longueur des phrases, structure rhétorique... Les avancées de la stylométrie appliquée à l’IA permettent de distinguer plus finement ce qui a été écrit de main humaine ou généré artificiellement.
Connaissez-vous la stylométrie, cette approche qui utilise la statistique pour décrire les propriétés stylistiques d’un texte ? Elle a au fil du temps permis de démêler bien des plumes : distinguer Corneille de Molière et mettre ainsi fin aux soupçons de supercherie littéraire, ou identifier, dans l’affaire Grégory, si la lettre anonyme émane de la tante, de l’oncle... ou du corbeau lui-même. Elle répertorie les régularités linguistiques, les choix syntaxiques et les préférences lexicales, ces infimes empreintes qui trahissent le style d’un auteur. Appliquée à l’intelligence artificielle générative, la stylométrie fait des étincelles. Les modèles génératifs, aussi lisses soient-ils, laissent des traces: des petites maladresses, des tics de langage, des manies syntaxiques. Nous avons recensé neuf signes qui trahissent l’œuvre de la machine. Florilège.
À découvrir
Votre pause jeu sous le parasol avec l’application Le Figaro Jeux!
Votre pause jeu sous le parasol avec l’application Le Figaro Jeux!
Une cadence en rythme ternaire
L’IA générative adopte souvent une cadence en ternaire, un phénomène que l’ingénieur et chercheur en intelligence artificielle Frédéric Kaplan qualifie de «triptyque rythmique». Cette figure stylistique consiste en une succession de trois propositions, verbes ou phrases, qui s’amplifient ou se complètent. Il prend l’exemple suivant: «C’est un système qui contraint, qui renforce, qui verrouille.» La forme, loin d’être nouvelle, est un classique de la rhétorique, omniprésente dans les discours politiques, les essais et les argumentaires. Mais sa redondance en boucle trahit ici un auteur qui n’en est pas un.
Des phrases plus longues
Passer la publicité
Publicité
Une étude intitulée Feature Extraction and Analysis for GPT-Generated Text de A. Selvioğlu, V. Adanova et M. Atagoziev, datant de mars 2025, analyse ce phénomène avec précision: les textes produits par ChatGPT présentent une longueur moyenne de phrase plus élevée que celle des écrits humains, avec une faible dispersion autour de cette moyenne.
Graphique de densité de la longueur des phrases pour des extraits de textes générés par ChatGPT ou écrits par l’homme. Copie de l’’article de recherche «Feature Extraction and Analysis for GPT-Generated Text» de A. Selvioğlu, V. Adanova et M. Atagoziev, mars 2025.
On voit sur le graphique de densité ci-dessous que les extraits de textes générés par ChatGPT (vert et jaune) présentent des phrases avec un plus grand nombre de mots que les extraits de textes écrits par l’homme (rouge et bleu).
... et à la structure logique trop linéaire
Dans le même ordre d’idées, la progression d’idées chez l’IA est d’une fluidité mécanique. Chaque phrase s’enchaîne logiquement, sans rupture, sans tension ni surprise. Voilà ce qu’on appelle en stylométrie le manque de «burstiness», désignant l’absence de cette variabilité naturelle propre aux écrits humains, où se mêlent accélérations soudaines, hésitations, digressions ou ralentissements stylistiques.
Des structures syntaxiques répétées
Si chaque patron syntaxique isolé semble anodin, leur récurrence systématique dans un texte est suspecte. Les chercheurs ont repéré ces schémas comme des «marqueurs stylométriques» caractéristiques des productions automatisées. On relève donc cette fameuse énumération ternaire automatique, mais également la structure «Au lieu de [faire quelque chose], [quelqu’un] devrait...». On note aussi la proposition principale, suivie d’un chapelet de participes présents: «...en renforçant, en facilitant, en éclairant...»
Un lexique managérial et technologique très marqué
Des termes comme «reimagined» («réinventé») sont utilisés plus de mille fois plus souvent que par des humains, «bioluminescent» 650 fois plus, «graphene» 400 fois plus. Cette spécificité reflète la nature des corpus d’entraînement massifs de l’IA et la probabilité statistique qui gouverne le choix des mots. On sait ce qui avait été dit sur le verbe «delve», signifiant «creuser» en français, terme pourtant peu utilisé dans le monde anglo-saxon. Comme le soulignait le Guardian, le terme est en revanche plus commun dans certains contextes anglophones africains, notamment au Nigeria, en raison de l’externalisation du travail de renforcement humain (RLHF) vers ces régions, où les annotateurs humains influencent la tonalité et le style du modèle. Ce mot avait connu une véritable explosion avec l’arrivée de l’IA générative.
Les chercheurs ont été étonnés par la pauvreté du vocabulaire utilisé. «Nous nous attendions à des scores significativement plus élevés en matière de diversité lexicale (MTLD, qui quantifie la fréquence d’apparition de nouveaux mots dans un texte) dans les textes générés par GPT, puisque ce dernier est entraîné sur une grande quantité de texte anglais», nous explique ainsi Venera Adanova, enseignante-chercheuse à la Ted University de Tunisie, auteure du rapport «Feature Extraction and Analysis for GPT-Generated Text».
Des tournures génériques ou stéréotypées
Si l’IA brille par sa maîtrise dans les lettres de motivation, les mémoires académiques et les rapports de stage, c’est que les textes formels sont particulièrement propices à son intervention. Les détecteurs d’IA s’appuient notamment sur la plus ou moins grande probabilité de chaque mot à suivre le précédent, soit le degré d’«entropie lexicale». L’entropie désignant au sens large le désordre dans un système. Ce sont bien sûr les textes humains qui présentent la plus grande entropie, comprenez l’imprévisibilité la plus importante dans le choix des mots. Si ces liens sont trop systématiquement «parfaits», ils concluent qu’il est peu probable qu’un humain soit l’auteur. Cela mène parfois à des faux positifs: des textes humains ayant le malheur d’être trop conventionnels, accusés à tort d’être artificiels.
Une surreprésentation notable d’adverbes de modération
Certaines études récentes en linguistique computationnelle relèvent un excès d’adverbes de modération dans les textes produits par l’IA : «probablement», «clairement», «essentiellement», «relativement», «potentiellement», «généralement»… Ces termes apparaissent jusqu’à 1,7 fois plus fréquemment que dans les écrits humains. Dans sa logique probabiliste, l’IA générative évite les affirmations catégoriques et couvre ses arrières pour maximiser la cohérence sur des sujets incertains ou ambigus.
Une prédilection pour les formes passives et impersonnelles
L’usage massif des formes passives et des tournures impersonnelles comme «Il est important de noter que», «Il convient de souligner que»...constitue un autre indice probant. Le «GenAI Detection Challenge 2024 » de l’équipe IntegrityAI, basée à Abu Dhabi, démontre que ce signal stylométrique, couplé à des modèles linguistiques avancés, permet d’atteindre un taux de détection supérieur à 89 % dans les essais académiques. Ces formes passives sont souvent accompagnées d’adjectifs au passif: «amélioré», «réduit», «renforcé», «optimisé»...
Une grande similarité entre le paragraphe et le titre
«Nous nous attendions également à ce que des caractéristiques telles que la similarité paragraphe-titre et la similarité paragraphe-à-paragraphe aient un pouvoir discriminant plus élevé, étant donné que les textes générés par GPT sont produits uniquement à partir du titre de la thèse et devraient donc s’articuler plus étroitement autour de ce titre», explique Venera Adanova. «Étonnamment, d’autres mesures statistiques ont fini par dominer le processus de classification.» Reste que la cohérence entre le titre et le paragraphe demeure bien plus marquée dans les textes générés par l’IA que dans ceux rédigés par des humains. Là où un auteur humain s’autorise digressions, nuances ou effets de style dès l’introduction, l’IA, elle, reste fidèle au titre comme un élève trop scolaire récitant son sujet.