Quanto saranno accurati i rilevatori di intelligenza artificiale nel 2026? Ne abbiamo testati 5
Abbiamo eseguito 50 esempi di testo tramite Turnitin, GPTZero, Copyleaks, ZeroGPT e Originality.ai. Ecco cosa abbiamo scoperto sull'accuratezza del rilevamento dell'IA e sui falsi positivi.
A una dottoranda della nostra rete la sua introduzione alla tesi è stata contrassegnata come generata al 67% dall'intelligenza artificiale dal sistema di rilevamento della sua università. Ha scritto ogni parola da sola per quattro mesi. Nessuno strumento di intelligenza artificiale, nessun correttore grammaticale e nemmeno il controllo ortografico.
Ha trascorso due settimane a riscrivere le sezioni per abbassare il punteggio. Ha funzionato, ma la versione riscritta era peggiore dell’originale.
Abbiamo deciso di scoprire esattamente quanto siano effettivamente affidabili questi strumenti. Quindi ne abbiamo testati cinque.
La nostra metodologia di test: 50 campioni su 5 rilevatori
Abbiamo assemblato 50 campioni di testo, ciascuno tra 500 e 800 parole. I campioni rientravano in cinque categorie:
- 10 testi accademici scritti esclusivamente da esseri umani: articoli di riviste pubblicati dal 2018 al 2022, scritti prima della diffusa disponibilità del LLM
- 10 testi generati esclusivamente dall'intelligenza artificiale — prodotti da GPT-4o con suggerimenti accademici, senza modifiche
- 10 testi generati dall'intelligenza artificiale con leggero editing manuale: bozze AI con correzioni umane per precisione e voce
- 10 testi generati dall'intelligenza artificiale elaborati tramite il nostro text humanizer: pass di umanizzazione completo più revisione manuale
- 10 testi scritti da persone di madrelingua inglese: articoli pubblicati da ricercatori che scrivono nella loro seconda o terza lingua
Abbiamo analizzato ogni campione tramite il modulo di rilevamento AI di Turnitin, GPTZero, Copyleaks, ZeroGPT e Originality.ai. Ciascuno strumento ha restituito un punteggio di probabilità AI. Abbiamo registrato ogni punteggio e calcolato i parametri di precisione.
I risultati ci hanno sorpreso. Non perché gli strumenti fallissero completamente, ma perché i modelli di fallimento erano così incoerenti.
Rilevamento AI di Turnitin: risultati di precisione
Turnitin ha identificato correttamente 9 testi su 10 generati esclusivamente dall'intelligenza artificiale, assegnando loro un punteggio superiore all'80%. Si tratta di prestazioni solide sull'evidente output dell'IA.
Dove ha faticato: falsi positivi. Tre dei nostri 10 testi accademici scritti da persone hanno ottenuto un punteggio superiore al 20% sull'indicatore AI di Turnitin. Uno – una revisione formale della letteratura da una rivista di chimica – ha ottenuto il 38%.
Sul testo umanizzato, le prestazioni di Turnitin sono diminuite in modo significativo. Solo 3 campioni umanizzati su 10 hanno ottenuto punteggi superiori alla soglia del 20%. I restanti 7 hanno ottenuto un punteggio compreso tra il 2% e il 17%.
La scrittura inglese non madrelingua era la categoria peggiore. Quattro campioni non nativi su 10 hanno segnalato una percentuale superiore al 20%. Uno ha ottenuto il 52%. Questi erano veri articoli pubblicati da veri ricercatori umani.
Precisione complessiva di Turnitin nel nostro test: 72%. Sembra accettabile finché non si realizza che un tasso di errore del 28% significa che circa 1 giudizio su 4 potrebbe essere sbagliato.
GPTZero vs Copyleaks vs ZeroGPT: testa a testa
Abbiamo testato i tre rilevatori AI autonomi più popolari confrontandoli con il nostro set completo di campioni.
GPTZero è stato il rilevatore più aggressivo. Ha catturato 10 testi AI grezzi su 10: ricordo perfetto. Ma ha anche contrassegnato 4 testi scritti da persone e 5 testi inglesi non nativi come prevalentemente generati dall’intelligenza artificiale. Il tasso di falsi positivi è stato il più alto nel nostro test, pari al 12%.
Copyleaks ha adottato un approccio più conservatore. Ha identificato correttamente 8 testi AI su 10, ma ha contrassegnato in modo errato solo 1 campione scritto da esseri umani. Sul testo umanizzato, ne ha presi 4 su 10, rendendolo il miglior risultato contro l'umanizzazione, ma ne manca ancora più della metà.
ZeroGPT era il meno affidabile. Ha contrassegnato correttamente 7 testi AI su 10, ma ha anche contrassegnato erroneamente 3 testi scritti da esseri umani. Quel che è peggio, i suoi punteggi oscillavano: abbiamo analizzato lo stesso campione due volte e abbiamo ottenuto risultati diversi il 30% delle volte. La coerenza è importante in uno strumento di rilevamento e ZeroGPT non l'ha fornita.
Originality.ai ha ottenuto buoni risultati sul testo AI non elaborato (9/10 rilevati) e ha registrato un basso tasso di falsi positivi sul testo umano (1/10 contrassegnato erroneamente). Sul testo umanizzato, ne ha presi 5 su 10: a metà del gruppo.
Ecco il riassunto scomodo: nessun rilevatore ha raggiunto una precisione complessiva superiore all'80% in tutte le categorie di campioni.
Il problema dei falsi positivi di cui nessuno parla
I falsi positivi rappresentano la crisi silenziosa nel rilevamento dell’intelligenza artificiale. Quando un rilevatore segnala erroneamente un testo scritto da un essere umano come generato dall’intelligenza artificiale, l’onere della prova spetta a chi lo ha scritto. "Dimostra di non aver usato l'intelligenza artificiale" è una richiesta quasi impossibile.
I nostri test hanno rilevato modelli coerenti in cui i testi umani venivano erroneamente contrassegnati:
Scrittura formale altamente strutturata. Più la tua prosa è organizzata e raffinata, più è probabile che un rilevatore la segnali. Frasi tematiche chiare, progressione logica dei paragrafi, terminologia coerente: tutti questi sono modelli condivisi da una buona scrittura umana e dai risultati dell'intelligenza artificiale.
Sezioni stereotipate. Le sezioni sui metodi, le descrizioni procedurali e le revisioni della letteratura seguono modelli specifici della disciplina. Ogni ricercatore scrive che "i dati sono stati raccolti utilizzando interviste semistrutturate" allo stesso modo. I rilevatori non possono distinguere la convenzione dalla generazione.
Vocabolario a bassa entropia. Alcuni campi (legge, medicina, ingegneria) utilizzano un vocabolario specializzato con opzioni di sinonimi limitate. Quando è necessario utilizzare ripetutamente termini specifici, il testo appare più "prevedibile" a un rilevatore basato sulla perplessità.
Inglese non madrelingua. Continuiamo a tornare su questo argomento perché è la scoperta più preoccupante. I ricercatori che scrivono nella loro seconda lingua producono testi con una minore diversità lessicale e strutture più stereotipate, esattamente gli schemi che i rilevatori associano all’intelligenza artificiale. Ciò crea un risultato discriminatorio con cui la maggior parte delle istituzioni non è riuscita a confrontarsi.
Worried About False Positives?
Our text humanizer adds natural variance to your writing — whether AI-assisted or not. Reduce false positive risk without changing your ideas.
Try It FreeCosa significa questo per i ricercatori che utilizzano strumenti di intelligenza artificiale
Se utilizzi l'intelligenza artificiale come assistente alla scrittura (redazione, ristrutturazione, perfezionamento), il panorama del rilevamento crea un vero problema. Anche il testo scritto interamente a mano potrebbe essere contrassegnato. Il testo assistito dall'intelligenza artificiale verrà quasi sicuramente segnalato a meno che non si adottino misure per umanizzarlo.
I nostri consigli basati su questi test:
Non fidarti del verdetto di nessun singolo rilevatore. Abbiamo visto campioni che hanno ottenuto un punteggio del 5% su uno strumento e del 68% su un altro. Se il tuo istituto utilizza un rilevatore, è quello che conta per la conformità, ma un singolo punteggio non costituisce prova dell'utilizzo dell'intelligenza artificiale.
Umanizzare strategicamente. L'output grezzo dell'IA è rilevabile. Il testo ben umanizzato per lo più non lo è. Se hai utilizzato l'assistenza dell'intelligenza artificiale, esegui la bozza tramite uno strumento di umanizzazione della qualità e aggiungi la tua voce personale. I nostri test hanno dimostrato che questa combinazione riduce i punteggi di rilevamento a meno del 15% in tutti e cinque gli strumenti.
Conserva le tue bozze. Salva le versioni intermedie del tuo lavoro. Cronologia del browser, registri delle conversazioni ChatGPT, PDF con annotazioni, note scritte a mano: tutto ciò fornisce prova del tuo processo di scrittura se vieni interrogato.
Sostenere politiche istituzionali migliori. Gli strumenti di rilevamento dell'intelligenza artificiale non sono abbastanza affidabili da servire come unica prova della disonestà accademica. Se la tua università considera un punteggio Turnitin AI come una prova, respingilo con i dati. Condividi studi come questo.
Per i passaggi pratici sulla gestione del testo contrassegnato, consulta la nostra guida su come i ricercatori stanno aggirando il rilevamento dell'intelligenza artificiale senza imbrogliare.
La corsa agli armamenti per il rilevamento dell’intelligenza artificiale non sta rallentando. I rilevatori miglioreranno. Ma lo stesso vale per gli strumenti di scrittura assistiti dall’intelligenza artificiale. La soluzione a lungo termine non è un rilevamento migliore: è una politica migliore che riconosca come avviene effettivamente la scrittura ora.
Il tuo lavoro è reale. Le tue idee sono reali. Un algoritmo difettoso non dovrebbe essere il giudice di ciò.
Proofread and polish your manuscript with tracked changes. Built for academic writing.
Domande frequenti
D: Quale rilevatore AI è più preciso?
Nei nostri test, Turnitin e Originality.ai hanno ottenuto la massima precisione complessiva rispettivamente al 72% e 74% in tutte le categorie di campioni. Tuttavia, la precisione variava in modo significativo in base al tipo di testo. Turnitin è stato il migliore nel catturare l'output grezzo dell'IA, ma ha riscontrato più falsi positivi su testo inglese non nativo. Originality.ai era più equilibrato ma meno efficace sul testo umanizzato. Nessun singolo rilevatore ha raggiunto una precisione superiore all’80% in tutte le categorie, il che rappresenta una limitazione significativa per gli strumenti utilizzati per prendere decisioni sull’integrità accademica.
D: I rilevatori di intelligenza artificiale funzionano sulla scrittura accademica?
Funzionano meglio su alcuni tipi di scrittura accademica rispetto ad altri. Di solito vengono rilevati risultati grezzi e non modificati dell'IA in stile accademico: i tassi di rilevamento variavano dal 70% al 100% nel nostro test. Ma i testi accademici formali scritti da persone innescano falsi positivi a tassi preoccupanti: fino al 12% nei nostri test. I settori tecnici con vocabolario specializzato e gli scrittori inglesi non madrelingua sono colpiti in modo sproporzionato. La risposta breve è: i rilevatori di intelligenza artificiale funzionano sulla scrittura accademica, ma non in modo sufficientemente affidabile da fungere da prova autonoma.
D: Con quale frequenza i rilevatori di intelligenza artificiale rilevano la scrittura umana?
Nel nostro test su 20 campioni scritti da persone (10 nativi inglesi, 10 non nativi), 9 campioni – il 45% – hanno ricevuto un punteggio AI superiore al 20% su almeno un rilevatore. Tre testi scritti da persone hanno ottenuto un punteggio superiore al 50% su almeno uno strumento. Il tasso di falsi positivi per rilevatore variava dal 4% al 12%. Se non sei madrelingua inglese e scrivi prosa accademica formale, le probabilità di un falso positivo sono ancora più alte. Questo è il motivo per cui ti consigliamo di conservare bozze e prove del processo indipendentemente dal fatto che tu abbia utilizzato strumenti di intelligenza artificiale.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.