Насколько точны будут детекторы искусственного интеллекта в 2026 году? Мы протестировали 5 из них
Мы прогнали 50 образцов текста через Turnitin, GPTZero, Copyleaks, ZeroGPT и Originality.ai. Вот что мы узнали о точности обнаружения ИИ и ложных срабатываниях.
Введение в диссертацию аспиранта в нашей сети было отмечено системой обнаружения ее университета как 67% созданной искусственным интеллектом. Каждое слово она писала сама в течение четырех месяцев. Никаких инструментов искусственного интеллекта, никаких средств проверки грамматики и даже проверки орфографии.
Она потратила две недели, переписывая разделы, чтобы снизить оценку. Это сработало, но переписанная версия оказалась хуже оригинала.
Мы решили выяснить, насколько на самом деле надежны эти инструменты. Итак, мы протестировали пять из них.
Наша методология тестирования: 50 образцов на 5 детекторах
Мы собрали 50 образцов текста, каждый объемом от 500 до 800 слов. Образцы были разделены на пять категорий:
- 10 академических текстов, написанных исключительно людьми — опубликованные журнальные статьи за 2018–2022 гг., написанные до широкого распространения LLM.
- 10 текстов, созданных исключительно искусственным интеллектом — создано GPT-4o с академическими подсказками, без редактирования.
- 10 текстов, созданных искусственным интеллектом, с легким редактированием вручную — черновики, созданные искусственным интеллектом, с человеческими исправлениями для точности и озвучки.
- 10 текстов, созданных искусственным интеллектом, обработанных с помощью нашего текстового гуманизатора — полная гуманизация плюс проверка вручную.
- 10 текстов, написанных людьми, для которых английский язык не является родным — опубликованные статьи исследователей, написанных на их втором или третьем языке.
Мы прогнали каждый образец через модуль обнаружения искусственного интеллекта Turnitin, GPTZero, Copyleaks, ZeroGPT и Originality.ai. Каждый инструмент возвращал оценку вероятности ИИ. Мы записывали каждый балл и рассчитывали показатели точности.
Результаты нас удивили. Не потому, что инструменты полностью вышли из строя, а потому, что закономерности сбоев были настолько непоследовательными.
Обнаружение Turnitin AI: результаты точности
Turnitin правильно идентифицировал 9 из 10 текстов, созданных исключительно с помощью искусственного интеллекта, получив их оценку выше 80%. Это солидная производительность при очевидных результатах искусственного интеллекта.
Где были проблемы: ложные срабатывания. Три из 10 наших академических текстов, написанных человеком, набрали более 20% по индикатору AI Turnitin. Один — официальный обзор литературы из химического журнала — набрал 38%.
При работе с гуманизированным текстом производительность Turnitin значительно упала. Только 3 из 10 гуманизированных образцов набрали балл выше 20%-го порога. Остальные 7 набрали от 2% до 17%.
Письмо на неродном английском языке было худшей категорией. Четыре из 10 неродных образцов отмечены выше 20%. Один набрал 52%. Это были настоящие опубликованные статьи настоящих исследователей-людей.
Общая точность Turnitin в нашем тесте: 72%. Это звучит приемлемо, пока вы не осознаете, что уровень ошибок в 28% означает, что примерно 1 из 4 суждений может быть неверным.
GPTZero против Copyleaks против ZeroGPT: противостояние
Мы протестировали три самых популярных автономных детектора искусственного интеллекта на нашем полном наборе образцов.
GPTZero оказался самым агрессивным детектором. Он улавливал 10 из 10 необработанных текстов AI — отличная запоминаемость. Но он также отметил 4 текста, написанных человеком, и 5 текстов на неродном английском языке как преимущественно созданные искусственным интеллектом. Уровень ложноположительных результатов был самым высоким в нашем тесте — 12%.
Copyleaks придерживался более консервативного подхода. Он правильно идентифицировал 8 из 10 текстов ИИ, но неправильно отметил только один образец, написанный человеком. В гуманизированном тексте он получил 4 балла из 10, что делает его лучшим в борьбе с гуманизацией, но все же не хватает более половины.
ZeroGPT оказался наименее надежным. Он правильно пометил 7 из 10 текстов AI, но также неправильно пометил 3 текста, написанных человеком. Хуже того, его оценки колебались: мы прогоняли одну и ту же выборку дважды и получали разные результаты в 30% случаев. Согласованность имеет значение в инструменте обнаружения, и ZeroGPT ее не предоставил.
Originality.ai хорошо показал себя на необработанном AI-тексте (обнаружено 9/10) и имел низкий уровень ложных срабатываний на человеческом тексте (1/10 неправильно помечено). По гуманизированному тексту поймал 5 из 10 — средний балл.
Вот неприятный итог: ни один детектор не достиг общей точности выше 80% во всех категориях проб.
Проблема ложных срабатываний, о которой никто не говорит
Ложные срабатывания — это тихий кризис в обнаружении ИИ. Когда детектор ошибочно помечает написанный человеком текст как созданный искусственным интеллектом, он возлагает бремя доказывания на автора. «Доказать, что вы не использовали ИИ» — почти невыполнимое требование.
Наше тестирование выявило устойчивые закономерности, при которых человеческие тексты ошибочно помечались:
Тщательно структурированное формальное письмо. Чем более организована и отточена ваша проза, тем больше вероятность того, что детектор ее заметит. Четкие тематические предложения, логическое развитие абзацев, последовательная терминология — все это общие закономерности для хорошего человеческого письма и результатов искусственного интеллекта.
Формальные разделы. Разделы методов, описания процедур и обзоры литературы соответствуют шаблонам, специфичным для конкретной дисциплины. Каждый исследователь одинаково пишет, что «данные были собраны с помощью полуструктурированных интервью». Детекторы не могут отличить условность от генерации.
Низкоэнтропийная лексика. В некоторых областях (юриспруденция, медицина, инженерия) используется специализированная лексика с ограниченным набором синонимов. Когда вам приходится неоднократно использовать определенные термины, ваш текст выглядит более «предсказуемым» для детектора, основанного на недоумении.
Английский для неродного языка. Мы постоянно возвращаемся к этому вопросу, потому что это самый тревожный вывод. Исследователи, пишущие на своем втором языке, создают текст с меньшим лексическим разнообразием и более шаблонными структурами — именно те, которые детекторы шаблонов связывают с ИИ. Это приводит к дискриминационному результату, с которым большинство учреждений не справились.
Беспокоитесь о ложных срабатываниях?
Proofread, humanize, and edit your academic writing with AI — no credit card required.
Попробуйте бесплатноЧто это означает для исследователей, использующих инструменты искусственного интеллекта
Если вы используете ИИ в качестве помощника в написании — составлении черновиков, реструктуризации, полировке — ситуация с обнаружением создает настоящую проблему. Даже текст, который вы написали полностью от руки, может быть помечен. Текст, созданный с помощью ИИ, почти наверняка будет помечен, если вы не предпримете шаги по его гуманизации.
Наши рекомендации, основанные на этом тестировании:
Не доверяйте вердикту ни одного детектора. Мы видели образцы, которые набрали 5 % на одном инструменте и 68 % на другом. Если ваше учреждение использует один детектор, именно он имеет значение для соответствия требованиям, но отдельный балл не является свидетельством использования ИИ.
Стратегическая гуманизация. Необработанный результат ИИ можно обнаружить. Хорошо очеловеченный текст в большинстве случаев не таков. Если вы использовали помощь ИИ, пропустите свой черновик через инструмент качественной гуманизации и добавьте свой личный голос. Наше тестирование показало, что эта комбинация снизила показатели обнаружения до менее 15 % для всех пяти инструментов.
Сохраняйте черновики. Сохраняйте промежуточные версии своей работы. История браузера, журналы разговоров ChatGPT, PDF-файлы с аннотациями, рукописные заметки — все это свидетельствует о вашем процессе письма, если вас когда-либо будут допрашивать.
Выступайте за улучшение институциональной политики. Инструменты обнаружения искусственного интеллекта недостаточно надежны, чтобы служить единственным доказательством академической нечестности. Если ваш университет рассматривает оценку Turnitin AI как доказательство, возразите — с помощью данных. Поделитесь исследованиями, подобными этому.
Практические шаги по обработке помеченного текста см. в нашем руководстве как исследователи обходят обнаружение ИИ без мошенничества.
Гонка вооружений в области обнаружения ИИ не замедляется. Детекторы будут улучшаться. Но то же самое можно сказать и о пишущих инструментах с помощью искусственного интеллекта. Долгосрочное решение — это не лучшее обнаружение — это лучшая политика, которая признает, как на самом деле происходит письмо сейчас.
Ваша работа реальна. Ваши идеи реальны. Несовершенный алгоритм не должен судить об этом.
Корректируйте и дорабатывайте свою рукопись с отслеживанием изменений. Создан для академических писаний.
Часто задаваемые вопросы
Вопрос: Какой детектор искусственного интеллекта наиболее точен?
В нашем тестировании Turnitin и Originality.ai продемонстрировали самую высокую общую точность — 72% и 74% соответственно во всех категориях выборки. Однако точность существенно различалась в зависимости от типа текста. Turnitin лучше всех справлялся с распознаванием необработанных результатов искусственного интеллекта, но имел больше ложных срабатываний по тексту на неродном английском языке. Originality.ai был более сбалансированным, но менее эффективным для гуманизированного текста. Ни один детектор не достиг точности выше 80% по всем категориям, что является существенным ограничением для инструментов, используемых для принятия решений об академической честности.
Вопрос: Работают ли детекторы искусственного интеллекта при проверке академических работ?
Они лучше работают над некоторыми видами академического письма, чем над другими. Обычно выявляются необработанные, неотредактированные результаты ИИ в академическом стиле — уровень обнаружения в нашем тесте колебался от 70% до 100%. Но формальный академический текст, написанный человеком, вызывает ложные срабатывания с относительной частотой — до 12% в нашем тестировании. Технические области со специализированной лексикой и писатели, не являющиеся носителями английского языка, страдают непропорционально сильно. Короткий ответ: детекторы ИИ работают с академическими произведениями, но недостаточно надежно, чтобы служить самостоятельными доказательствами.
Вопрос: Как часто детекторы искусственного интеллекта распознают человеческое письмо?
В нашем тесте из 20 образцов написанного человеком текста (10 — на английском языке, 10 — на неродном) 9 образцов — 45 % — получили оценку AI выше 20 % хотя бы на одном детекторе. Три написанных человеком текста получили оценку выше 50% хотя бы по одному инструменту. Уровень ложноположительных результатов на детектор варьировался от 4% до 12%. Если вы не являетесь носителем английского языка и пишете формальную академическую прозу, вероятность ложноположительного результата еще выше. Вот почему мы рекомендуем сохранять черновики и доказательства процесса независимо от того, использовали ли вы инструменты искусственного интеллекта.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.