Quão Precisos São os Detectores de IA em 2026? Testamos 5 Deles
Testamos 50 amostras de texto através do Turnitin, GPTZero, Copyleaks, ZeroGPT e Originality.ai. Aqui está o que encontramos sobre a precisão da detecção de IA e falsos positivos.
Uma estudante de doutorado em nossa rede teve a introdução de sua tese marcada como 67% gerada por IA pelo sistema de detecção da universidade. Ela escreveu cada palavra sozinha ao longo de quatro meses. Sem ferramentas de IA, sem verificadores gramaticais, nem mesmo correção ortográfica.
Ela passou duas semanas reescrevendo seções para reduzir a pontuação. Funcionou — mas a versão reescrita era pior do que a original.
Decidimos descobrir exatamente quão confiáveis esses ferramentas realmente são. Então testamos cinco delas.
Nossa metodologia de teste: 50 amostras em 5 detectores
Montamos 50 amostras de texto, cada uma entre 500 e 800 palavras. As amostras se enquadraram em cinco categorias:
- 10 textos acadêmicos escritos puramente por humanos — artigos de revistas publicados de 2018 a 2022, escritos antes da disponibilidade generalizada de LLM
- 10 textos gerados puramente por IA — produzidos pelo GPT-4o com prompts acadêmicos, sem edição
- 10 textos gerados por IA com leve edição manual — rascunhos de IA com correções humanas para precisão e voz
- 10 textos gerados por IA processados através do nosso humanizador de texto — passagem completa de humanização mais revisão manual
- 10 textos escritos por humanos que não são falantes nativos de inglês — artigos publicados por pesquisadores escrevendo em sua segunda ou terceira língua
Executamos cada amostra através do módulo de detecção de IA do Turnitin, GPTZero, Copyleaks, ZeroGPT e Originality.ai. Cada ferramenta retornou uma pontuação de probabilidade de IA. Registramos cada pontuação e calculamos métricas de precisão.
Os resultados nos surpreenderam. Não porque as ferramentas falharam completamente — mas porque os padrões de falha eram tão inconsistentes.
Detecção de IA do Turnitin: resultados de precisão
O Turnitin identificou corretamente 9 de 10 textos gerados puramente por IA, pontuando acima de 80%. Isso é um desempenho sólido em saídas óbvias de IA.
Onde teve dificuldades: falsos positivos. Três de nossos 10 textos acadêmicos escritos por humanos pontuaram acima de 20% no indicador de IA do Turnitin. Um — uma revisão formal da literatura de uma revista de química — pontuou 38%.
Em texto humanizado, o desempenho do Turnitin caiu significativamente. Apenas 3 de 10 amostras humanizadas pontuaram acima do limite de 20%. As restantes pontuaram entre 2% e 17%.
A escrita em inglês não nativo foi a pior categoria. Quatro de 10 amostras não nativas marcaram acima de 20%. Uma pontuou 52%. Esses eram artigos publicados reais por pesquisadores humanos reais.
A precisão geral do Turnitin em nosso teste: 72%. Isso parece aceitável até você perceber que uma taxa de erro de 28% significa que aproximadamente 1 em cada 4 julgamentos pode estar errado.
GPTZero vs Copyleaks vs ZeroGPT: confronto direto
Testamos os três detectores de IA autônomos mais populares contra nosso conjunto completo de amostras.
GPTZero foi o detector mais agressivo. Ele capturou 10 de 10 textos brutos de IA — recall perfeito. Mas também marcou 4 textos escritos por humanos e 5 textos em inglês não nativo como predominantemente gerados por IA. Sua taxa de falso positivo foi a mais alta em nosso teste, em 12%.
Copyleaks adotou uma abordagem mais conservadora. Identificou corretamente 8 de 10 textos de IA, mas marcou apenas 1 amostra escrita por humanos incorretamente. Em texto humanizado, capturou 4 de 10 — tornando-se o melhor desempenho contra humanização, mas ainda perdendo mais da metade.
ZeroGPT foi o menos confiável. Marcou 7 de 10 textos de IA corretamente, mas também marcou incorretamente 3 textos escritos por humanos. Pior, suas pontuações flutuaram — executamos a mesma amostra duas vezes e obtivemos resultados diferentes 30% das vezes. Consistência é importante em uma ferramenta de detecção, e o ZeroGPT não a entregou.
Originality.ai teve um bom desempenho em texto bruto de IA (9/10 detectados) e teve uma baixa taxa de falso positivo em texto humano (1/10 marcado incorretamente). Em texto humanizado, capturou 5 de 10 — no meio da classificação.
Aqui está o resumo desconfortável: nenhum detector alcançou acima de 80% de precisão geral em todas as categorias de amostras.
O problema dos falsos positivos que ninguém fala
Falsos positivos são a crise silenciosa na detecção de IA. Quando um detector marca incorretamente um texto escrito por humanos como gerado por IA, coloca o ônus da prova sobre o escritor. "Prove que você não usou IA" é uma demanda quase impossível.
Nossos testes encontraram padrões consistentes nos quais textos humanos foram falsamente marcados:
Escrita formal altamente estruturada. Quanto mais organizada e polida sua prosa, mais provável é que um detector a marque. Frases de tópico claras, progressão lógica de parágrafos, terminologia consistente — todos esses são padrões compartilhados por boa escrita humana e saída de IA.
Seções formulaicas. Seções de métodos, descrições de procedimentos e revisões de literatura seguem modelos específicos da disciplina. Cada pesquisador escreve "os dados foram coletados usando entrevistas semi-estruturadas" da mesma forma. Detectores não conseguem distinguir convenção de geração.
Vocabulário de baixa entropia. Alguns campos — direito, medicina, engenharia — usam vocabulário especializado com opções limitadas de sinônimos. Quando você deve usar termos específicos repetidamente, seu texto parece mais "previsível" para um detector baseado em perplexidade.
Inglês não nativo. Continuamos voltando a isso porque é a descoberta mais preocupante. Pesquisadores escrevendo em sua segunda língua produzem textos com menor diversidade lexical e estruturas mais formulaicas — exatamente os padrões que os detectores associam à IA. Isso cria um resultado discriminatório com o qual a maioria das instituições não lidou.
Preocupado com Falsos Positivos?
Nosso humanizador de texto adiciona variação natural à sua escrita — seja assistida por IA ou não. Reduza o risco de falsos positivos sem mudar suas ideias.
Experimente GrátisO que isso significa para pesquisadores que usam ferramentas de IA
Se você está usando IA como assistente de escrita — redigindo, reestruturando, polindo — o cenário de detecção cria um problema genuíno. Mesmo o texto que você escreveu inteiramente à mão pode ser marcado. O texto assistido por IA quase certamente será marcado, a menos que você tome medidas para humanizá-lo.
Nossas recomendações com base neste teste:
Não confie no veredicto de um único detector. Vimos amostras que pontuaram 5% em uma ferramenta e 68% em outra. Se sua instituição usa um detector, esse é o que importa para conformidade — mas uma única pontuação não é evidência de uso de IA.
Humanize estrategicamente. A saída bruta de IA é detectável. Texto bem humanizado geralmente não é. Se você usou assistência de IA, passe seu rascunho por uma ferramenta de humanização de qualidade e adicione sua voz pessoal. Nossos testes mostraram que essa combinação reduziu as pontuações de detecção para menos de 15% em todas as cinco ferramentas.
Mantenha seus rascunhos. Salve versões intermediárias do seu trabalho. Histórico do navegador, registros de conversas do ChatGPT, PDFs anotados, notas manuscritas — tudo isso fornece evidências do seu processo de escrita se você for questionado.
Defenda políticas institucionais melhores. As ferramentas de detecção de IA não são confiáveis o suficiente para servir como única evidência de desonestidade acadêmica. Se sua universidade trata uma pontuação de IA do Turnitin como prova, conteste — com dados. Compartilhe estudos como este.
Para passos práticos sobre como lidar com texto marcado, veja nosso guia sobre como pesquisadores estão contornando a detecção de IA sem trapacear.
A corrida armamentista da detecção de IA não está desacelerando. Os detectores vão melhorar. Mas as ferramentas de escrita assistida por IA também. A solução a longo prazo não é uma melhor detecção — é uma melhor política que reconheça como a escrita realmente acontece agora.
Seu trabalho é real. Suas ideias são reais. Um algoritmo falho não deveria ser o juiz disso.
Revise e polir seu manuscrito com alterações rastreadas. Criado para escrita acadêmica.
Perguntas frequentes
Q: Qual detector de IA é o mais preciso?
Em nossos testes, Turnitin e Originality.ai empataram na maior precisão geral com 72% e 74%, respectivamente, em todas as categorias de amostras. No entanto, a precisão variou significativamente por tipo de texto. O Turnitin foi o melhor em capturar saídas brutas de IA, mas teve mais falsos positivos em texto em inglês não nativo. O Originality.ai foi mais equilibrado, mas menos eficaz em texto humanizado. Nenhum detector único alcançou acima de 80% de precisão em todas as categorias, o que é uma limitação significativa para ferramentas sendo usadas para tomar decisões sobre integridade acadêmica.
Q: Os detectores de IA funcionam na escrita acadêmica?
Eles funcionam melhor em alguns tipos de escrita acadêmica do que em outros. A saída bruta e não editada de IA em estilo acadêmico geralmente é capturada — as taxas de detecção variaram de 70% a 100% em nosso teste. Mas textos acadêmicos formais escritos por humanos acionam falsos positivos em taxas preocupantes — até 12% em nossos testes. Campos técnicos com vocabulário especializado e escritores não nativos de inglês são desproporcionalmente afetados. A resposta curta é: os detectores de IA funcionam na escrita acadêmica, mas não de forma confiável o suficiente para servir como evidência independente.
Q: Com que frequência os detectores de IA marcam a escrita humana?
Em nosso teste de 20 amostras escritas por humanos (10 nativos de inglês, 10 não nativos), 9 amostras — 45% — receberam uma pontuação de IA acima de 20% em pelo menos um detector. Três textos escritos por humanos pontuaram acima de 50% em pelo menos uma ferramenta. A taxa de falso positivo por detector variou de 4% a 12%. Se você é um falante não nativo de inglês escrevendo prosa acadêmica formal, as chances de um falso positivo são ainda maiores. É por isso que recomendamos manter rascunhos e evidências do processo, independentemente de você ter usado ferramentas de IA.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.