Quelle est la précision des détecteurs d’IA en 2026 ? Nous en avons testé 5
Nous avons analysé 50 échantillons de texte via Turnitin, GPTZero, Copyleaks, ZeroGPT et Originality.ai. Voici ce que nous avons découvert sur la précision de la détection de l'IA et les faux positifs.
Une doctorante de notre réseau a vu son introduction de thèse signalée comme étant générée à 67 % par l'IA par le système de détection de son université. Elle a écrit chaque mot elle-même pendant quatre mois. Pas d'outils d'IA, pas de correcteurs grammaticaux, pas même de correcteur orthographique.
Elle a passé deux semaines à réécrire des sections pour baisser la note. Cela a fonctionné, mais la version réécrite était pire que l'originale.
Nous avons décidé de déterminer exactement la fiabilité de ces outils. Nous en avons donc testé cinq.
Notre méthodologie de test : 50 échantillons répartis sur 5 détecteurs
Nous avons rassemblé 50 échantillons de texte, chacun entre 500 et 800 mots. Les échantillons étaient répartis en cinq catégories :
- 10 textes académiques purement écrits par des humains — articles de revues publiés de 2018 à 2022, rédigés avant la disponibilité généralisée du LLM
- 10 textes purement générés par l'IA — produits par GPT-4o avec des invites académiques, sans édition
- 10 textes générés par l'IA avec édition manuelle légère — Brouillons d'IA avec corrections humaines pour la précision et la voix
- 10 textes générés par l'IA traités via notre text humanizer — passe d'humanisation complète plus révision manuelle
- 10 textes écrits par des humains par des anglophones non natifs — articles publiés par des chercheurs écrivant dans leur deuxième ou troisième langue
Nous avons analysé chaque échantillon via le module de détection d'IA de Turnitin, GPTZero, Copyleaks, ZeroGPT et Originality.ai. Chaque outil a renvoyé un score de probabilité d'IA. Nous avons enregistré chaque score et calculé les mesures de précision.
Les résultats nous ont surpris. Non pas parce que les outils ont complètement échoué, mais parce que les schémas d’échec étaient si incohérents.
Détection Turnitin AI : résultats de précision
Turnitin a correctement identifié 9 textes sur 10 purement générés par l'IA, avec une note supérieure à 80 %. C’est une performance solide sur une sortie évidente de l’IA.
Là où il a eu du mal : les faux positifs. Trois de nos 10 textes académiques rédigés par des humains ont obtenu un score supérieur à 20 % sur l'indicateur IA de Turnitin. L'une d'entre elles – une revue de la littérature officielle d'une revue de chimie – a obtenu un score de 38 %.
Sur le texte humanisé, les performances de Turnitin ont considérablement chuté. Seuls 3 échantillons humanisés sur 10 ont obtenu un score supérieur au seuil de 20 %. Les 7 autres ont obtenu un score compris entre 2 % et 17 %.
L'écriture en anglais non natif était la pire catégorie. Quatre échantillons non autochtones sur 10 ont signalé un taux supérieur à 20 %. L'un d'entre eux a obtenu un score de 52 %. Il s’agissait de véritables articles publiés par de vrais chercheurs humains.
Précision globale de Turnitin dans notre test : 72 %. Cela semble acceptable jusqu'à ce que vous réalisiez qu'un taux d'erreur de 28 % signifie qu'environ 1 jugement sur 4 pourrait être erroné.
GPTZero vs Copyleaks vs ZeroGPT : face-à-face
Nous avons testé les trois détecteurs IA autonomes les plus populaires par rapport à notre ensemble d’échantillons complet.
GPTZero était le détecteur le plus agressif. Il a capturé 10 textes bruts d’IA sur 10 – rappel parfait. Mais il a également signalé 4 textes écrits par des humains et 5 textes en anglais non natifs comme étant principalement générés par l’IA. Son taux de faux positifs était le plus élevé de notre test à 12 %.
Copyleaks a adopté une approche plus conservatrice. Il a identifié correctement 8 textes d’IA sur 10, mais n’a signalé qu’un seul échantillon écrit par un humain de manière incorrecte. Sur le texte humanisé, il a obtenu une note de 4 sur 10, ce qui en fait le meilleur résultat contre l'humanisation, mais il en manque toujours plus de la moitié.
ZeroGPT était le moins fiable. Il a signalé correctement 7 textes d’IA sur 10, mais a également signalé de manière incorrecte 3 textes écrits par des humains. Pire encore, ses scores fluctuaient : nous avons analysé le même échantillon deux fois et obtenu des résultats différents dans 30 % des cas. La cohérence est importante dans un outil de détection, et ZeroGPT n'y est pas parvenue.
Originality.ai a obtenu de bons résultats sur le texte brut de l'IA (9/10 détecté) et a eu un faible taux de faux positifs sur le texte humain (1/10 incorrectement signalé). Sur le texte humanisé, il a obtenu 5 sur 10 – au milieu du peloton.
Voici le résumé inconfortable : aucun détecteur n’a atteint une précision globale supérieure à 80 % dans toutes les catégories d’échantillons.
Le problème des faux positifs dont personne ne parle
Les faux positifs constituent la crise discrète de la détection de l’IA. Lorsqu’un détecteur signale à tort un texte écrit par un humain comme étant généré par l’IA, il impose la charge de la preuve à l’auteur. « Prouvez que vous n’avez pas utilisé l’IA » est une exigence presque impossible.
Nos tests ont révélé des modèles cohérents dans lesquels des textes humains étaient faussement signalés :
Écriture formelle hautement structurée. Plus votre prose est organisée et soignée, plus un détecteur est susceptible de la signaler. Des phrases de sujet claires, une progression logique des paragraphes, une terminologie cohérente : tous ces modèles sont partagés par une bonne écriture humaine et une bonne sortie de l'IA.
Sections de formule. Les sections sur les méthodes, les descriptions de procédures et les revues de littérature suivent des modèles spécifiques à la discipline. Chaque chercheur écrit de la même manière que « les données ont été collectées à l'aide d'entretiens semi-structurés ». Les détecteurs ne peuvent pas distinguer la convention de la génération.
Vocabulaire à faible entropie. Certains domaines (droit, médecine, ingénierie) utilisent un vocabulaire spécialisé avec des options de synonymes limitées. Lorsque vous devez utiliser des termes spécifiques à plusieurs reprises, votre texte semble plus « prévisible » pour un détecteur basé sur la perplexité.
Anglais non natif. Nous y revenons sans cesse car c'est la découverte la plus troublante. Les chercheurs qui écrivent dans leur langue seconde produisent des textes avec une plus faible diversité lexicale et des structures plus formelles – exactement les modèles que les détecteurs associent à l’IA. Cela crée un résultat discriminatoire auquel la plupart des institutions n’ont pas été confrontées.
Worried About False Positives?
Our text humanizer adds natural variance to your writing — whether AI-assisted or not. Reduce false positive risk without changing your ideas.
Try It FreeQu'est-ce que cela signifie pour les chercheurs utilisant des outils d'IA
Si vous utilisez l’IA comme assistant d’écriture – rédaction, restructuration, peaufinage – le paysage de la détection crée un véritable problème. Même un texte que vous avez entièrement écrit à la main peut être signalé. Le texte assisté par l’IA sera presque certainement signalé à moins que vous ne preniez des mesures pour l’humaniser.
Nos recommandations basées sur ces tests :
Ne vous fiez pas au verdict d'un seul détecteur. Nous avons vu des échantillons qui ont obtenu un score de 5 % sur un outil et de 68 % sur un autre. Si votre institution utilise un seul détecteur, c'est celui qui compte pour la conformité, mais un seul score ne constitue pas une preuve de l'utilisation de l'IA.
Humanisez stratégiquement. La sortie brute de l'IA est détectable. Un texte bien humanisé ne l’est généralement pas. Si vous avez utilisé l'assistance de l'IA, exécutez votre brouillon via un outil d'humanisation de qualité et ajoutez votre voix personnelle. Nos tests ont montré que cette combinaison réduisait les scores de détection à moins de 15 % sur les cinq outils.
Conservez vos brouillons. Enregistrez les versions intermédiaires de votre travail. Historique du navigateur, journaux de conversation ChatGPT, PDF annotés, notes manuscrites : tout cela fournit des preuves de votre processus d'écriture si jamais vous êtes interrogé.
Plaidissez pour de meilleures politiques institutionnelles. Les outils de détection de l'IA ne sont pas suffisamment fiables pour servir de preuve unique de malhonnêteté académique. Si votre université considère un score Turnitin AI comme une preuve, repoussez-le – avec des données. Partagez des études comme celle-ci.
Pour connaître les étapes pratiques de gestion du texte signalé, consultez notre guide sur comment les chercheurs contournent la détection de l'IA sans tricher.
La course aux armements en matière de détection de l’IA ne ralentit pas. Les détecteurs s'amélioreront. Mais il en sera de même pour les outils d’écriture assistés par l’IA. La solution à long terme n'est pas une meilleure détection, mais une meilleure politique qui reconnaît comment l'écriture se produit réellement maintenant.
Votre travail est réel. Vos idées sont réelles. Un algorithme défectueux ne devrait pas en être le juge.
Proofread and polish your manuscript with tracked changes. Built for academic writing.
Questions fréquemment posées
Q : Quel détecteur IA est le plus précis ?
Lors de nos tests, Turnitin et Originality.ai sont à égalité pour la précision globale la plus élevée, respectivement à 72 % et 74 % dans toutes les catégories d'échantillons. Cependant, la précision variait considérablement selon le type de texte. Turnitin était le meilleur pour capturer les résultats bruts de l'IA, mais présentait plus de faux positifs sur le texte anglais non natif. Originality.ai était plus équilibré mais moins efficace sur le texte humanisé. Aucun détecteur n'a atteint à lui seul une précision supérieure à 80 % dans toutes les catégories, ce qui constitue une limitation importante pour les outils utilisés pour prendre des décisions en matière d'intégrité académique.
Q : Les détecteurs d'IA fonctionnent-ils sur la rédaction académique ?
Ils fonctionnent mieux sur certains types de rédaction académique que sur d’autres. Les résultats bruts et non édités de l’IA dans un style académique sont généralement capturés : les taux de détection variaient de 70 % à 100 % dans notre test. Mais les textes académiques formels écrits par des humains déclenchent des faux positifs à des taux préoccupants – jusqu'à 12 % lors de nos tests. Les domaines techniques comportant un vocabulaire spécialisé et des écrivains non anglophones sont touchés de manière disproportionnée. La réponse courte est : les détecteurs d’IA fonctionnent sur la rédaction académique, mais pas de manière suffisamment fiable pour servir de preuve autonome.
Q : À quelle fréquence les détecteurs d'IA signalent-ils l'écriture humaine ?
Dans notre test de 20 échantillons écrits par des humains (10 natifs anglais, 10 non natifs), 9 échantillons – 45 % – ont reçu un score IA supérieur à 20 % sur au moins un détecteur. Trois textes écrits par des humains ont obtenu un score supérieur à 50 % sur au moins un outil. Le taux de faux positifs par détecteur variait entre 4 % et 12 %. Si vous n'êtes pas anglophone et que vous écrivez de la prose académique formelle, les chances d'obtenir un faux positif sont encore plus élevées. C'est pourquoi nous vous recommandons de conserver les brouillons et de traiter les preuves, que vous ayez ou non utilisé des outils d'IA.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.