Наскільки точними будуть детектори AI у 2026 році? Ми протестували 5 із них
Ми перевірили 50 зразків тексту через Turnitin, GPTZero, Copyleaks, ZeroGPT і Originality.ai. Ось що ми знайшли про точність виявлення ШІ та помилкові спрацьовування.
Аспірантка в нашій мережі помітила вступ до дисертації як 67% створений ШІ системою виявлення її університету. Вона написала кожне слово сама протягом чотирьох місяців. Ні інструментів ШІ, ні засобів перевірки граматики, ні навіть перевірки орфографії.
Вона два тижні переписувала розділи, щоб знизити оцінку. Це спрацювало — але переписана версія була гіршою за оригінал.
Ми вирішили з’ясувати, наскільки ці інструменти насправді надійні. Тож ми протестували п’ять із них.
Наша методологія тестування: 50 зразків на 5 детекторах
Ми зібрали 50 зразків тексту, кожен із яких містить від 500 до 800 слів. Зразки розділені на п'ять категорій:
- 10 суто написаних людиною академічних текстів — опубліковані журнальні статті за 2018–2022 рр., написані до широкого доступу до LLM
- 10 текстів, згенерованих штучним інтелектом — створено GPT-4o з академічними підказками, без редагування
- 10 створених штучним інтелектом текстів із легким редагуванням вручну — чернетки штучного інтелекту з правками людини для точності та голосу
- 10 створених штучним інтелектом текстів, оброблених за допомогою нашого text-humanizer — повна гуманізація та перевірка вручну
- 10 текстів, написаних людиною неносіями англійської мови — опубліковані статті дослідників, які пишуть своєю другою або третьою мовою
Ми перевірили кожен зразок через модуль виявлення ШІ Turnitin, GPTZero, Copyleaks, ZeroGPT і Originality.ai. Кожен інструмент повертав оцінку ймовірності ШІ. Ми записали кожен бал і розрахували показники точності.
Результати нас здивували. Не тому, що інструменти повністю вийшли з ладу, а тому, що схеми невдач були такими непослідовними.
Виявлення Turnitin AI: результати точності
Turnitin правильно ідентифікував 9 із 10 текстів, згенерованих штучним інтелектом, оцінивши їх у понад 80%. Це хороша продуктивність на очевидному виході ШІ.
Проблеми: помилкові спрацьовування. Три з 10 наших академічних текстів, написаних людиною, отримали понад 20% балів за показником штучного інтелекту Turnitin. Один — офіційний огляд літератури з хімічного журналу — набрав 38%.
На гуманізованому тексті продуктивність Turnitin значно впала. Лише 3 з 10 гуманізованих зразків перевищили 20% порогове значення. Решта 7 набрали від 2% до 17%.
Нерідна англійська мова була найгіршою категорією. Чотири з 10 немісцевих зразків позначені понад 20%. Один набрав 52%. Це були справжні опубліковані статті справжніх дослідників-людей.
Загальна точність Turnitin у нашому тесті: 72%. Це звучить прийнятно, поки ви не зрозумієте, що коефіцієнт помилок у 28% означає, що приблизно 1 із 4 суджень може бути неправильним.
GPTZero проти Copyleaks проти ZeroGPT: протистояння
Ми перевірили три найпопулярніші автономні детектори штучного інтелекту на нашому повному наборі зразків.
GPTZero був найагресивнішим детектором. Він зловив 10 із 10 необроблених текстів AI — ідеальне запам’ятовування. Але він також позначив 4 тексти, написані людиною, і 5 нерідних англійських текстів як переважно створені ШІ. Рівень помилкових позитивних результатів був найвищим у нашому тесті – 12%.
Copyleaks застосував більш консервативний підхід. Він правильно визначив 8 із 10 текстів штучного інтелекту, але неправильно позначив лише 1 зразок, написаний людиною. Що стосується гуманізованого тексту, він отримав 4 з 10, що зробило його найкращим у боротьбі з гуманізацією, але все одно не вистачило більше половини.
ZeroGPT був найменш надійним. Він правильно позначив 7 із 10 текстів ШІ, але також неправильно позначив 3 тексти, написані людиною. Гірше того, його оцінки коливалися — ми двічі запускали один і той самий зразок і отримували різні результати в 30% випадків. Узгодженість має значення в інструменті виявлення, і ZeroGPT цього не забезпечив.
Originality.ai добре показав необроблений ШІ-текст (виявлено 9/10) і мав низький відсоток хибно-позитивних результатів для людського тексту (1/10 неправильно позначено). На олюдненому тексті він зловив 5 із 10 — середина зграї.
Ось незручне резюме: жоден детектор не досяг загальної точності понад 80% для всіх категорій зразків.
Помилково позитивна проблема, про яку ніхто не говорить
Помилкові спрацьовування — це тиха криза виявлення ШІ. Коли детектор неправильно позначає текст, написаний людиною, як створений штучним інтелектом, це покладає тягар доведення на автора. «Доведіть, що ви не використовували штучний інтелект» — майже неможлива вимога.
Наше тестування виявило послідовні шаблони, у яких людські тексти помилково позначалися:
Високо структуроване офіційне письмо. Що організованіша та відшліфованіша ваша проза, то ймовірніше, що детектор її помітить. Чіткі тематичні речення, логічний послідовний хід абзаців, узгоджена термінологія — усе це спільні шаблони для хорошого написання людьми та результатів ШІ.
Формульні розділи. Розділи методів, описи процедур і огляди літератури відповідають шаблонам для окремих дисциплін. Кожен дослідник так само пише: «дані були зібрані за допомогою напівструктурованих інтерв’ю». Детектори не можуть відрізнити умовність від генерації.
Низькоентропійний словниковий запас. У деяких галузях — право, медицина, інженерія — використовується спеціалізована лексика з обмеженими варіантами синонімів. Коли ви повинні використовувати певні терміни неодноразово, ваш текст виглядає більш «передбачуваним» для детектора на основі здивування.
Нерідна англійська. Ми постійно повертаємося до цього, тому що це найбільш тривожне відкриття. Дослідники, які пишуть своєю другою мовою, створюють текст із меншим лексичним розмаїттям і більш формульними структурами — саме ті шаблони, які детектори шаблонів асоціюють із ШІ. Це створює дискримінаційний результат, з яким більшість установ не впоралися.
Worried About False Positives?
Our text humanizer adds natural variance to your writing — whether AI-assisted or not. Reduce false positive risk without changing your ideas.
Try It FreeЩо це означає для дослідників, які використовують інструменти ШІ
Якщо ви використовуєте штучний інтелект як помічника при написанні — креслення, реструктуризація, полірування — ландшафт виявлення створює справжню проблему. Навіть текст, який ви повністю написали від руки, може виявитися незначним. Штучний текст майже напевно позначатиметься, якщо ви не вживете заходів для його гуманізації.
Наші рекомендації на основі цього тестування:
Не довіряйте вердикту жодного детектора. Ми бачили зразки, які набрали 5% за одним інструментом і 68% за іншим. Якщо у вашій установі використовується один детектор, це той, який має значення для відповідності, але одна оцінка не є доказом використання ШІ.
Гуманізуйте стратегічно. Необроблені результати ШІ можна виявити. Добре гуманізований текст переважно ні. Якщо ви використовували допомогу штучного інтелекту, запустіть чернетку через інструмент гуманізації якості і додайте свій особистий голос. Наше тестування показало, що ця комбінація зменшила результати виявлення до 15% для всіх п’яти інструментів.
Зберігайте чернетки. Зберігайте проміжні версії своєї роботи. Історія веб-переглядача, журнали бесід ChatGPT, анотовані PDF-файли, рукописні нотатки — усе це є доказом вашого процесу написання, якщо вас коли-небудь запитуватимуть.
Виступайте за кращу інституційну політику. Інструменти виявлення ШІ недостатньо надійні, щоб служити єдиним доказом академічної нечесності. Якщо ваш університет розглядає оцінку Turnitin AI як доказ, відмовтеся — з даними. Поділіться такими дослідженнями, як це.
Щоб отримати практичні вказівки щодо обробки позначеного тексту, перегляньте наш посібник про як дослідники обходять виявлення ШІ без обману.
Гонка озброєнь у сфері виявлення ШІ не зменшується. Детектори будуть покращуватися. Але так само будуть інструменти для письма за допомогою ШІ. Довгострокове рішення полягає не в кращому виявленні, а в кращій політиці, яка визнає, як саме зараз відбувається написання.
Ваша робота справжня. Ваші ідеї реальні. Несправний алгоритм не повинен бути суддею про це.
Proofread and polish your manuscript with tracked changes. Built for academic writing.
Часті запитання
З: Який детектор ШІ найточніший?
У нашому тестуванні Turnitin і Originality.ai показали найвищу загальну точність у 72% і 74% відповідно в усіх категоріях зразків. Однак точність значно відрізнялася залежно від типу тексту. Turnitin найкраще вловлював необроблений результат штучного інтелекту, але мав більше хибних спрацьовувань на нерідному англійському тексті. Originality.ai був більш збалансованим, але менш ефективним для гуманізованого тексту. Жоден детектор не досяг точності понад 80% у всіх категоріях, що є значним обмеженням для інструментів, які використовуються для прийняття рішень щодо академічної доброчесності.
З: чи працюють детектори штучного інтелекту з академічним письмом?
Вони краще працюють на деяких видах академічного письма, ніж на інших. Невідредагований вихід штучного інтелекту в академічному стилі зазвичай вловлюється — у нашому тесті рівень виявлення коливався від 70% до 100%. Але офіційний академічний текст, написаний людиною, викликає хибні спрацьовування із загрозливою частотою — до 12% у нашому тестуванні. Технічні галузі зі спеціалізованою лексикою та нерідними англійськими авторами постраждали непропорційно. Коротка відповідь: детектори штучного інтелекту працюють з академічним письмом, але недостатньо надійно, щоб служити окремим доказом.
З: Як часто детектори штучного інтелекту позначають людське письмо?
У нашому тесті з 20 зразків, написаних людиною (10 рідною англійською мовою, 10 нерідною), 9 зразків — 45% — отримали оцінку ШІ вище 20% принаймні на одному детекторі. Три тексти, написані людиною, отримали більше 50% результатів принаймні на одному інструменті. Рівень хибнопозитивних результатів на детектор коливався від 4% до 12%. Якщо ви не є носієм англійської мови та пишете офіційну академічну прозу, ймовірність помилкового спрацьовування ще більша. Ось чому ми рекомендуємо зберігати чернетки та обробляти докази незалежно від того, чи використовували ви інструменти ШІ.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.