Mennyire pontosak az AI-detektorok 2026-ban? Ezek közül 5-öt teszteltünk
50 szövegmintát futtattunk a Turnitin, GPTZero, Copyleaks, ZeroGPT és Originality.ai oldalakon. Íme, mit találtunk a mesterséges intelligencia észlelésének pontosságáról és a hamis pozitív eredményekről.
Egy hálózatunkban részt vevő doktorandusz diplomamunkáját úgy jelölte meg, hogy az egyeteme észlelőrendszere 67%-ban mesterséges intelligencia generálta. Négy hónapon keresztül minden szót maga írt. Nincsenek mesterséges intelligencia-eszközök, nincsenek nyelvtani ellenőrzők, még a helyesírás-ellenőrző sem.
Két hétig átírta a részeket, hogy csökkentse a pontszámot. Működött – de az újraírt verzió rosszabb volt, mint az eredeti.
Úgy döntöttünk, hogy kiderítjük, mennyire megbízhatóak ezek az eszközök. Így ötöt teszteltünk közülük.
Vizsgálati módszerünk: 50 minta 5 detektoron keresztül
50 szövegmintát állítottunk össze, egyenként 500 és 800 szó között. A minták öt kategóriába sorolhatók:
- 10 tisztán ember által írt tudományos szöveg - publikált folyóiratcikkek 2018–2022 között, még az LLM széles körű elérhetősége előtt írva
- 10 tisztán mesterséges intelligencia által generált szöveg – a GPT-4o készítette tudományos utasításokkal, szerkesztés nélkül
- 10 mesterséges intelligencia által generált szöveg könnyű kézi szerkesztéssel - AI-vázlatok emberi korrekciókkal a pontosság és a hang érdekében
- 10 mesterséges intelligencia által generált szöveg a text humanizer segítségével feldolgozva – teljes humanizálási igazolvány és kézi ellenőrzés
- 10 ember által írt szöveg angolt nem anyanyelvi beszélőktől - kutatók által publikált cikkek, amelyek a második vagy harmadik nyelvükön írnak
Minden mintát lefuttattunk a Turnitin mesterséges intelligencia-érzékelő modulján, a GPTZero-n, a Copyleaks-en, a ZeroGPT-n és az Originality.ai-n. Mindegyik eszköz AI valószínűségi pontszámot adott vissza. Minden pontszámot rögzítettünk, és kiszámítottuk a pontossági mutatókat.
Az eredmények megleptek minket. Nem azért, mert az eszközök teljesen meghibásodtak – hanem azért, mert a meghibásodási minták annyira következetlenek voltak.
Turnitin AI észlelése: pontos eredmények
A Turnitin 10 tisztán mesterséges intelligencia által generált szövegből 9-et helyesen azonosított, és 80% feletti pontszámot ért el. Ez szilárd teljesítmény nyilvánvaló AI kimeneten.
Ahol küzdött: hamis pozitív eredmények. 10 ember által írt tudományos szövegünk közül három 20% feletti eredményt ért el a Turnitin AI mutatóján. Az egyik – egy kémiai folyóirat hivatalos irodalmi áttekintése – 38%-ot ért el.
Humanizált szövegen Turnitin teljesítménye jelentősen visszaesett. A humanizált minták közül 10-ből csak 3 érték meghaladja a 20%-os küszöböt. A maradék 7 2% és 17% közötti pontszámot ért el.
A nem anyanyelvű angol írás volt a legrosszabb kategória. 10 nem natív mintából négy 20% feletti értéket jelölt meg. Az egyik 52%-ot ért el. Ezek valódi emberkutatók valódi publikációi voltak.
A Turnitin általános pontossága tesztünkben: 72%. Ez elfogadhatónak hangzik mindaddig, amíg rá nem jön, hogy a 28%-os hibaarány azt jelenti, hogy nagyjából 4-ből 1 ítélet lehet téves.
GPTZero vs Copyleaks vs ZeroGPT: fej-fej mellett
A három legnépszerűbb önálló AI-detektort teszteltük a teljes mintakészletünkhöz képest.
A GPTZero volt a legagresszívebb detektor. 10 nyers AI-szövegből 10-et elkapott – tökéletes felidézés. De 4 ember által írt szöveget és 5 nem anyanyelvű angol szöveget is megjelölt túlnyomórészt mesterséges intelligencia által generáltként. A téves pozitív arány a tesztünkben a legmagasabb volt, 12%.
A Copyleaks konzervatívabb megközelítést alkalmazott. Helyesen azonosított 10 mesterséges intelligencia szövegből 8-at, de csak 1 ember által írt mintát jelölt meg helytelenül. Humanizált szövegen 10-ből 4-et ért el – ezzel a legjobban teljesített a humanizálás ellen, de még mindig több mint a fele hiányzik.
A ZeroGPT volt a legkevésbé megbízható. 10 mesterséges intelligencia szövegből 7-et helyesen jelölt meg, de 3 ember által írt szöveget is helytelenül jelölt meg. Ami még rosszabb, a pontszámok ingadoztak – kétszer futtattuk ugyanazt a mintát, és az esetek 30%-ában eltérő eredményeket kaptunk. A következetesség számít egy észlelőeszközben, és a ZeroGPT nem biztosította azt.
Az Originality.ai jól teljesített nyers mesterséges intelligencia szövegen (9/10 észlelt), és alacsony volt a hamis pozitív arány az emberi szövegen (1/10 helytelenül megjelölve). Humanizált szövegen 10-ből 5-öt fogott ki – a csomag közepét.
Íme a kényelmetlen összefoglaló: egyetlen detektor sem ért el 80% feletti teljes pontosságot az összes mintakategóriában.
A hamis pozitív probléma, amiről senki sem beszél
A hamis pozitívumok a mesterséges intelligencia észlelésének csendes válságát jelentik. Ha egy detektor helytelenül jelöli meg az ember által írt szöveget mesterséges intelligencia által generáltként, az íróra hárítja a bizonyítási terhet. A „bizonyítsd be, hogy nem használtál mesterséges intelligenciát” szinte lehetetlen követelés.
Tesztelésünk következetes mintákat talált, amelyekben az emberi szövegeket hamisan megjelölték:
Erősen strukturált formális írás. Minél rendezettebb és csiszoltabb a prózája, annál valószínűbb, hogy egy detektor megjelöli. Világos témamondatok, logikus bekezdésfejlődés, következetes terminológia – ezek mind a jó emberi írások és a mesterséges intelligencia kimenetének mintái.
Képletrészek. A módszerek szakaszok, az eljárási leírások és a szakirodalmi áttekintések tudományág-specifikus sablonokat követnek. Minden kutató azt írja, hogy "az adatokat félig strukturált interjúk segítségével gyűjtötték össze". Az érzékelők nem tudják megkülönböztetni a konvenciót a generációtól.
Alacsony entrópiájú szókincs. Egyes területek – jog, orvostudomány, mérnöki tudományok – speciális szókincset használnak korlátozott szinonimákkal. Ha ismételten kell bizonyos kifejezéseket használnod, a szöveg "kijósolhatóbbnak" tűnik a zavartság-alapú detektor számára.
Nem angol anyanyelvű. Folyamatosan visszatérünk ehhez, mert ez a legaggasztóbb megállapítás. A második nyelvükön író kutatók alacsonyabb lexikális diverzitású és több képletű struktúrájú szöveget állítanak elő – pontosan olyan mintákat, amelyeket a detektorok az MI-hez társítanak. Ez olyan diszkriminatív eredményt hoz létre, amellyel a legtöbb intézmény nem küzdött.
Worried About False Positives?
Our text humanizer adds natural variance to your writing — whether AI-assisted or not. Reduce false positive risk without changing your ideas.
Try It FreeMit jelent ez az AI-eszközöket használó kutatók számára
Ha MI-t használ írási asszisztensként – rajzolás, átstrukturálás, polírozás –, az észlelési környezet valódi problémát okoz. Még a teljesen kézzel írt szöveg is megjelölődhet. A mesterséges intelligencia által támogatott szöveg szinte biztosan meg fog jelenni, hacsak nem tesz lépéseket annak humanizálására.
Javaslataink a teszt alapján:
Ne bízzon egyetlen detektor ítéletében sem. Láttunk olyan mintákat, amelyek az egyik eszközön 5%-ot, a másikon pedig 68%-ot értek el. Ha az intézmény egy detektort használ, az számít a megfelelőség szempontjából – de egyetlen pontszám nem bizonyítéka a mesterséges intelligencia használatának.
Humanizáljon stratégiailag. A nyers AI-kimenet észlelhető. A jól humanizált szöveg többnyire nem. Ha mesterséges intelligencia támogatást használt, futtassa le a vázlatot egy [minőségi humanizációs eszközön] (/text-humanizer), és adja hozzá személyes hangját. Tesztelésünk azt mutatta, hogy ez a kombináció mind az öt eszköznél 15% alá csökkentette az észlelési pontszámot.
Őrizze meg piszkozatait. Mentse munkája közbenső verzióit. Böngészési előzmények, ChatGPT beszélgetési naplók, megjegyzésekkel ellátott PDF-ek, kézzel írt jegyzetek – mindez bizonyítékot ad az írási folyamatáról, ha valaha is megkérdezik.
Támogatja a jobb intézményi politikákat. Az AI-felderítő eszközök nem elég megbízhatóak ahhoz, hogy az akadémiai becstelenség egyetlen bizonyítékaként szolgáljanak. Ha az egyeteme a Turnitin AI-pontszámot bizonyítékként kezeli, húzza vissza – adatokkal. Oszd meg az ehhez hasonló tanulmányokat.
A megjelölt szövegek kezelésének gyakorlati lépéseiért tekintse meg a [hogyan kerülik meg a kutatók az AI-észlelést csalás nélkül] című útmutatónkat (/blog/bypass-ai-detection-academic-writing).
Az AI-felderítési fegyverkezési verseny nem lassul. Az érzékelők javulni fognak. De az AI által támogatott íróeszközök is így lesznek. A hosszú távú megoldás nem a jobb észlelés, hanem egy jobb politika, amely elismeri, hogyan történik most az írás.
A munkád valódi. Az elképzeléseid valósak. Egy hibás algoritmus nem dönthet erről.
Proofread and polish your manuscript with tracked changes. Built for academic writing.
Gyakran ismételt kérdések
K: Melyik AI-detektor a legpontosabb?
Tesztünk során a Turnitin és az Originality.ai holtversenyben érte el a legmagasabb általános pontosságot 72%-kal, illetve 74%-kal az összes mintakategóriában. A pontosság azonban szövegtípusonként jelentősen változott. A Turnitin volt a legjobb a nyers mesterséges intelligencia kimenet megszerzésében, de több hamis pozitív eredményt kapott a nem anyanyelvű angol szövegeken. Az Originality.ai kiegyensúlyozottabb volt, de kevésbé hatékony a humanizált szövegeken. Egyetlen detektor sem ért el 80%-nál nagyobb pontosságot az összes kategóriában, ami jelentős korlátozást jelent az akadémiai integritási döntések meghozatalához használt eszközök számára.
K: Az AI-detektorok működnek a tudományos írásban?
Egyes tudományos írástípusokon jobban dolgoznak, mint másokon. A nyers, szerkesztetlen, akadémiai stílusú mesterségesintelligencia-kimenetet általában elkapják – tesztünkben az észlelési arány 70% és 100% között volt. A formális, ember által írt akadémiai szöveg azonban megfelelő arányban vált ki hamis pozitív eredményeket – tesztünkben ez akár 12%-ot is elérhet. A speciális szókinccsel rendelkező műszaki területeket és a nem angol anyanyelvű írókat aránytalanul érinti. A rövid válasz a következő: az AI-detektorok dolgoznak a tudományos írásokon, de nem elég megbízhatóan ahhoz, hogy önálló bizonyítékként szolgáljanak.
K: Milyen gyakran jelzik az AI-detektorok az emberi írást?
20 ember által írt mintán (10 angol anyanyelvű, 10 nem anyanyelvű) végzett tesztünkben 9 minta – 45% – kapott 20% feletti AI-pontszámot legalább egy detektoron. Három ember által írt szöveg 50% feletti pontszámot ért el legalább egy eszközön. A hamis pozitív arány detektoronként 4% és 12% között volt. Ha Ön nem angol anyanyelvű, és formális tudományos prózát ír, még nagyobb az esélye a hamis pozitív eredménynek. Ezért javasoljuk, hogy őrizze meg a piszkozatokat és dolgozzon fel bizonyítékokat, függetlenül attól, hogy használt-e mesterséges intelligencia eszközöket.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.