Jak dokładne są detektory AI w 2026 roku? Przetestowaliśmy 5 z nich
Przeprowadziliśmy 50 próbek tekstu przez Turnitin, GPTZero, Copyleaks, ZeroGPT i Originality.ai. Oto, co odkryliśmy na temat dokładności wykrywania AI i fałszywych pozytywów.
Doktorantka w naszej sieci miała wprowadzenie do swojej pracy magisterskiej oznaczone jako 67% wygenerowane przez AI przez system wykrywania jej uniwersytetu. Napisała każde słowo sama przez cztery miesiące. Żadne narzędzia AI, żadne sprawdzanie gramatyki, nawet nie sprawdzanie pisowni.
Spędziła dwa tygodnie na przepisywaniu sekcji, aby obniżyć wynik. Działało — ale przepisana wersja była gorsza od oryginału.
Postanowiliśmy dowiedzieć się, jak niezawodne są te narzędzia. Przetestowaliśmy pięć z nich.
Nasza metodologia testowa: 50 próbek w 5 detektorach
Zebraliśmy 50 próbek tekstu, każda między 500 a 800 słów. Próbki podzieliły się na pięć kategorii:
- 10 czysto ludzkich tekstów akademickich — opublikowane artykuły z czasopism z lat 2018–2022, napisane przed powszechną dostępnością LLM
- 10 czysto tekstów generowanych przez AI — wyprodukowanych przez GPT-4o z akademickimi podpowiedziami, bez edytowania
- 10 tekstów generowanych przez AI z lekką edycją manualną — szkice AI z ludzkimi poprawkami dla dokładności i stylu
- 10 tekstów generowanych przez AI przetworzonych przez nasz humanizator tekstu — pełne przejście humanizacyjne plus przegląd ręczny
- 10 tekstów napisanych przez nieanglojęzycznych autorów — opublikowane prace przez badaczy piszących w swoim drugim lub trzecim języku
Przeprowadziliśmy każdą próbkę przez moduł wykrywania AI Turnitin, GPTZero, Copyleaks, ZeroGPT i Originality.ai. Każde narzędzie zwróciło wynik prawdopodobieństwa AI. Zarejestrowaliśmy każdy wynik i obliczyliśmy metryki dokładności.
Wyniki nas zaskoczyły. Nie dlatego, że narzędzia całkowicie zawiodły — ale dlatego, że wzory błędów były tak niespójne.
Wykrywanie AI Turnitin: wyniki dokładności
Turnitin poprawnie zidentyfikował 9 z 10 czysto tekstów generowanych przez AI, oceniając je powyżej 80%. To solidna wydajność w przypadku oczywistego wyjścia AI.
Gdzie miał problemy: fałszywe pozytywy. Trzy z naszych 10 ludzkich tekstów akademickich uzyskały wynik powyżej 20% na wskaźniku AI Turnitin. Jeden — formalny przegląd literatury z czasopisma chemicznego — uzyskał 38%.
W przypadku tekstów humanizowanych wydajność Turnitin znacznie spadła. Tylko 3 z 10 humanizowanych próbek uzyskały wynik powyżej progu 20%. Pozostałe 7 uzyskały wyniki między 2% a 17%.
Pisanie nieanglojęzyczne było najgorszą kategorią. Cztery z 10 próbek nieanglojęzycznych oznaczone powyżej 20%. Jeden uzyskał 52%. To były prawdziwe opublikowane prace przez prawdziwych badaczy.
Ogólna dokładność Turnitin w naszym teście: 72%. To brzmi akceptowalnie, dopóki nie zdasz sobie sprawy, że 28% wskaźnik błędów oznacza, że mniej więcej 1 na 4 oceny może być błędna.
GPTZero vs Copyleaks vs ZeroGPT: bezpośrednie porównanie
Przetestowaliśmy trzy najpopularniejsze samodzielne detektory AI w porównaniu do naszego pełnego zestawu próbek.
GPTZero był najbardziej agresywnym detektorem. Złapał 10 z 10 surowych tekstów AI — doskonałe przypomnienie. Ale również oznaczył 4 teksty napisane przez ludzi i 5 tekstów nieanglojęzycznych jako głównie generowane przez AI. Jego wskaźnik fałszywych pozytywów był najwyższy w naszym teście na poziomie 12%.
Copyleaks przyjął bardziej konserwatywne podejście. Poprawnie zidentyfikował 8 z 10 tekstów AI, ale błędnie oznaczył tylko 1 tekst napisany przez ludzi. W przypadku tekstów humanizowanych złapał 4 z 10 — co czyni go najlepszym wykonawcą w przypadku humanizacji, ale wciąż brakowało mu więcej niż połowy.
ZeroGPT był najmniej niezawodny. Poprawnie oznaczył 7 z 10 tekstów AI, ale również błędnie oznaczył 3 teksty napisane przez ludzi. Co gorsza, jego wyniki wahały się — przeprowadziliśmy tę samą próbkę dwa razy i uzyskaliśmy różne wyniki 30% czasu. Spójność ma znaczenie w narzędziu wykrywania, a ZeroGPT jej nie dostarczył.
Originality.ai dobrze poradził sobie z surowym tekstem AI (9/10 wykrytych) i miał niski wskaźnik fałszywych pozytywów w przypadku tekstu ludzkiego (1/10 błędnie oznaczone). W przypadku tekstów humanizowanych złapał 5 z 10 — w środku stawki.
Oto niewygodne podsumowanie: żaden detektor nie osiągnął powyżej 80% ogólnej dokładności we wszystkich kategoriach próbek.
Problem fałszywych pozytywów, o którym nikt nie mówi
Fałszywe pozytywy to cicha kryzys w wykrywaniu AI. Kiedy detektor błędnie oznacza tekst napisany przez ludzi jako wygenerowany przez AI, nakłada to ciężar dowodu na autora. "Udowodnij, że nie używałeś AI" to niemal niemożliwe żądanie.
Nasze testy wykazały spójne wzory, w których teksty ludzkie były błędnie oznaczane:
Wysoko zorganizowane formalne pisanie. Im bardziej zorganizowane i dopracowane są twoje prozy, tym bardziej prawdopodobne, że detektor je oznaczy. Jasne zdania tematyczne, logiczny postęp akapitów, spójna terminologia — wszystkie te wzory są wspólne dla dobrego pisania ludzkiego i wyjścia AI.
Sekcje formularzowe. Sekcje metodologiczne, opisy procedur i przeglądy literatury podążają za dyscyplinarnymi szablonami. Każdy badacz pisze "dane zostały zebrane przy użyciu wywiadów półstrukturalnych" w ten sam sposób. Detektory nie potrafią odróżnić konwencji od generacji.
Niska entropia słownictwa. Niektóre dziedziny — prawo, medycyna, inżynieria — używają specjalistycznego słownictwa z ograniczonymi opcjami synonimów. Kiedy musisz używać specyficznych terminów wielokrotnie, twój tekst wygląda na bardziej "przewidywalny" dla detektora opartego na złożoności.
Nieanglojęzyczny angielski. Wciąż wracamy do tego, ponieważ to najbardziej niepokojące odkrycie. Badacze piszący w swoim drugim języku produkują tekst o niższej różnorodności leksykalnej i bardziej formularzowych strukturach — dokładnie te wzory, które detektory kojarzą z AI. To tworzy dyskryminacyjne wyniki, z którymi większość instytucji nie poradziła sobie.
Martwisz się o fałszywe pozytywy?
Nasz humanizator tekstu dodaje naturalną zmienność do twojego pisania — niezależnie od tego, czy wspomagane przez AI, czy nie. Zmniejsz ryzyko fałszywych pozytywów bez zmiany swoich pomysłów.
Wypróbuj za darmoCo to oznacza dla badaczy korzystających z narzędzi AI
Jeśli korzystasz z AI jako asystenta pisania — pisania, restrukturyzacji, dopracowywania — krajobraz wykrywania stwarza prawdziwy problem. Nawet tekst, który napisałeś całkowicie ręcznie, może być oznaczony. Tekst wspomagany przez AI prawie na pewno będzie oznaczony, chyba że podejmiesz kroki, aby go humanizować.
Nasze zalecenia oparte na tych testach:
Nie ufaj werdyktowi żadnego pojedynczego detektora. Widzieliśmy próbki, które uzyskały 5% na jednym narzędziu i 68% na innym. Jeśli twoja instytucja używa jednego detektora, to ten ma znaczenie dla zgodności — ale pojedynczy wynik nie jest dowodem na użycie AI.
Humanizuj strategicznie. Surowe wyjście AI jest wykrywalne. Dobrze humanizowany tekst w większości nie jest. Jeśli korzystałeś z pomocy AI, uruchom swój szkic przez narzędzie do humanizacji jakości i dodaj swój osobisty głos. Nasze testy pokazały, że ta kombinacja obniża wyniki wykrywania do poniżej 15% we wszystkich pięciu narzędziach.
Zachowaj swoje szkice. Zapisz pośrednie wersje swojej pracy. Historia przeglądarki, dzienniki rozmów ChatGPT, adnotowane pliki PDF, ręcznie pisane notatki — wszystko to stanowi dowód twojego procesu pisania, jeśli kiedykolwiek zostaniesz zapytany.
Lobbuj za lepszymi politykami instytucjonalnymi. Narzędzia do wykrywania AI nie są wystarczająco niezawodne, aby służyć jako jedyne dowody na nieuczciwość akademicką. Jeśli twoja uczelnia traktuje wynik AI Turnitin jako dowód, sprzeciw się temu — z danymi. Podziel się badaniami takimi jak to.
Aby uzyskać praktyczne kroki dotyczące obsługi oznaczonego tekstu, zobacz nasz przewodnik po tym, jak badacze omijają wykrywanie AI bez oszustwa.
Wyścig zbrojeń w wykrywaniu AI nie zwalnia. Detektory będą się poprawiać. Ale tak samo będą się poprawiać narzędzia do pisania wspomagane przez AI. Długoterminowym rozwiązaniem nie jest lepsze wykrywanie — to lepsza polityka, która uznaje, jak pisanie naprawdę się odbywa teraz.
Twoja praca jest prawdziwa. Twoje pomysły są prawdziwe. Wadliwy algorytm nie powinien być sędzią tego.
Korekta i dopracowanie twojego manuskryptu z śledzonymi zmianami. Stworzony dla pisania akademickiego.
Często zadawane pytania
Q: Który detektor AI jest najdokładniejszy?
W naszych testach Turnitin i Originality.ai uzyskały najwyższą ogólną dokładność na poziomie 72% i 74% odpowiednio we wszystkich kategoriach próbek. Jednak dokładność znacznie różniła się w zależności od rodzaju tekstu. Turnitin był najlepszy w wykrywaniu surowego wyjścia AI, ale miał więcej fałszywych pozytywów w przypadku tekstów nieanglojęzycznych. Originality.ai był bardziej zrównoważony, ale mniej skuteczny w przypadku tekstów humanizowanych. Żaden pojedynczy detektor nie osiągnął powyżej 80% dokładności we wszystkich kategoriach, co stanowi istotne ograniczenie dla narzędzi używanych do podejmowania decyzji o integralności akademickiej.
Q: Czy detektory AI działają w pisaniu akademickim?
Działają lepiej w niektórych typach pisania akademickiego niż w innych. Surowe, nieedytowane wyjście AI w stylu akademickim jest zazwyczaj wykrywane — wskaźniki wykrywania w naszym teście wahały się od 70% do 100%. Ale formalny tekst akademicki napisany przez ludzi wywołuje fałszywe pozytywy w niepokojących wskaźnikach — do 12% w naszych testach. Dziedziny techniczne z wyspecjalizowanym słownictwem i nieanglojęzycznymi autorami są nieproporcjonalnie dotknięte. Krótka odpowiedź brzmi: detektory AI działają w pisaniu akademickim, ale nie wystarczająco niezawodnie, aby służyć jako samodzielny dowód.
Q: Jak często detektory AI oznaczają pisanie ludzkie?
W naszym teście 20 próbek napisanych przez ludzi (10 rodzimych anglojęzycznych, 10 nieanglojęzycznych), 9 próbek — 45% — otrzymało wynik AI powyżej 20% na co najmniej jednym detektorze. Trzy teksty napisane przez ludzi uzyskały wynik powyżej 50% na co najmniej jednym narzędziu. Wskaźnik fałszywych pozytywów na detektor wynosił od 4% do 12%. Jeśli jesteś nieanglojęzycznym pisarzem piszącym formalną prozę akademicką, prawdopodobieństwo fałszywego pozytywu jest jeszcze wyższe. Dlatego zalecamy zachowanie szkiców i dowodów procesu, niezależnie od tego, czy korzystałeś z narzędzi AI.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.