Độ chính xác của các công cụ phát hiện AI vào năm 2026? Chúng tôi đã thử nghiệm 5 công cụ
Chúng tôi đã chạy 50 mẫu văn bản qua Turnitin, GPTZero, Copyleaks, ZeroGPT và Originality.ai. Đây là những gì chúng tôi phát hiện về độ chính xác của việc phát hiện AI và tỷ lệ dương tính giả.
Một sinh viên tiến sĩ trong mạng lưới của chúng tôi đã bị hệ thống phát hiện của trường đại học đánh dấu phần giới thiệu luận án của cô là 67% do AI tạo ra. Cô đã viết từng từ một mình trong bốn tháng. Không có công cụ AI, không có kiểm tra ngữ pháp, thậm chí không có kiểm tra chính tả.
Cô đã dành hai tuần để viết lại các phần để giảm điểm số. Nó đã hiệu quả — nhưng phiên bản viết lại tệ hơn phiên bản gốc.
Chúng tôi quyết định tìm hiểu chính xác những công cụ này đáng tin cậy đến mức nào. Vì vậy, chúng tôi đã thử nghiệm năm công cụ.
Phương pháp thử nghiệm của chúng tôi: 50 mẫu qua 5 công cụ phát hiện
Chúng tôi đã tập hợp 50 mẫu văn bản, mỗi mẫu từ 500 đến 800 từ. Các mẫu rơi vào năm loại:
- 10 văn bản học thuật hoàn toàn do con người viết — các bài báo đã xuất bản từ 2018–2022, được viết trước khi có sự phổ biến rộng rãi của LLM
- 10 văn bản hoàn toàn do AI tạo ra — được sản xuất bởi GPT-4o với các yêu cầu học thuật, không chỉnh sửa
- 10 văn bản do AI tạo ra với chỉnh sửa nhẹ của con người — các bản thảo AI với các sửa đổi của con người để đảm bảo độ chính xác và giọng điệu
- 10 văn bản do AI tạo ra đã được xử lý qua công cụ nhân hóa văn bản — quá trình nhân hóa hoàn toàn cộng với đánh giá thủ công
- 10 văn bản do con người viết bởi những người nói tiếng Anh không phải là ngôn ngữ mẹ đẻ — các bài báo đã xuất bản bởi các nhà nghiên cứu viết bằng ngôn ngữ thứ hai hoặc thứ ba của họ
Chúng tôi đã chạy từng mẫu qua mô-đun phát hiện AI của Turnitin, GPTZero, Copyleaks, ZeroGPT và Originality.ai. Mỗi công cụ trả về một điểm số xác suất AI. Chúng tôi đã ghi lại từng điểm số và tính toán các chỉ số độ chính xác.
Kết quả khiến chúng tôi ngạc nhiên. Không phải vì các công cụ hoàn toàn thất bại — mà vì các mẫu thất bại rất không đồng nhất.
Phát hiện AI của Turnitin: kết quả độ chính xác
Turnitin đã xác định đúng 9 trong số 10 văn bản hoàn toàn do AI tạo ra, với điểm số trên 80%. Đó là hiệu suất vững chắc trên đầu ra AI rõ ràng.
Nơi mà nó gặp khó khăn: dương tính giả. Ba trong số 10 văn bản học thuật do con người viết đã ghi điểm trên 20% trên chỉ số AI của Turnitin. Một văn bản — một bài đánh giá tài liệu chính thức từ một tạp chí hóa học — đã ghi điểm 38%.
Trên văn bản đã được nhân hóa, hiệu suất của Turnitin giảm đáng kể. Chỉ có 3 trong số 10 mẫu nhân hóa ghi điểm trên ngưỡng 20%. 7 mẫu còn lại ghi điểm từ 2% đến 17%.
Viết tiếng Anh không phải là ngôn ngữ mẹ đẻ là loại tệ nhất. Bốn trong số 10 mẫu không phải là ngôn ngữ mẹ đẻ đã bị đánh dấu trên 20%. Một mẫu ghi điểm 52%. Đây là những bài báo đã được xuất bản bởi các nhà nghiên cứu thực sự.
Độ chính xác tổng thể của Turnitin trong thử nghiệm của chúng tôi: 72%. Nghe có vẻ chấp nhận được cho đến khi bạn nhận ra tỷ lệ sai sót 28% có nghĩa là khoảng 1 trong 4 phán quyết có thể sai.
GPTZero so với Copyleaks so với ZeroGPT: đối đầu trực tiếp
Chúng tôi đã thử nghiệm ba công cụ phát hiện AI độc lập phổ biến nhất với toàn bộ bộ mẫu của chúng tôi.
GPTZero là công cụ phát hiện mạnh mẽ nhất. Nó đã phát hiện 10 trong số 10 văn bản AI thô — hoàn toàn chính xác. Nhưng nó cũng đã đánh dấu 4 văn bản do con người viết và 5 văn bản tiếng Anh không phải là ngôn ngữ mẹ đẻ là chủ yếu do AI tạo ra. Tỷ lệ dương tính giả của nó là cao nhất trong thử nghiệm của chúng tôi với 12%.
Copyleaks đã áp dụng một cách tiếp cận bảo thủ hơn. Nó đã xác định đúng 8 trong số 10 văn bản AI nhưng chỉ đánh dấu sai 1 mẫu do con người viết. Trên văn bản đã được nhân hóa, nó đã phát hiện 4 trong số 10 — khiến nó trở thành công cụ hoạt động tốt nhất trong việc nhân hóa, nhưng vẫn bỏ lỡ hơn một nửa.
ZeroGPT là công cụ ít đáng tin cậy nhất. Nó đã đánh dấu đúng 7 trong số 10 văn bản AI nhưng cũng đánh dấu sai 3 văn bản do con người viết. Tệ hơn nữa, điểm số của nó dao động — chúng tôi đã chạy cùng một mẫu hai lần và nhận được kết quả khác nhau 30% thời gian. Sự nhất quán là quan trọng trong một công cụ phát hiện, và ZeroGPT không cung cấp điều đó.
Originality.ai hoạt động tốt trên văn bản AI thô (9/10 phát hiện) và có tỷ lệ dương tính giả thấp trên văn bản của con người (1/10 bị đánh dấu sai). Trên văn bản đã được nhân hóa, nó đã phát hiện 5 trong số 10 — ở giữa nhóm.
Dưới đây là tóm tắt không thoải mái: không có công cụ phát hiện nào đạt được độ chính xác tổng thể trên 80% qua tất cả các loại mẫu.
Vấn đề dương tính giả mà không ai nói đến
Dương tính giả là cuộc khủng hoảng âm thầm trong phát hiện AI. Khi một công cụ phát hiện đánh dấu sai văn bản do con người viết là do AI tạo ra, nó đặt gánh nặng chứng minh lên người viết. "Chứng minh rằng bạn không sử dụng AI" là một yêu cầu gần như không thể.
Thử nghiệm của chúng tôi đã phát hiện ra các mẫu nhất quán trong việc văn bản của con người bị đánh dấu sai:
Viết chính thức có cấu trúc cao. Càng tổ chức và tinh tế văn bản của bạn, thì càng có khả năng một công cụ phát hiện sẽ đánh dấu nó. Câu chủ đề rõ ràng, sự tiến triển hợp lý của đoạn văn, thuật ngữ nhất quán — tất cả đều là những mẫu mà văn bản tốt của con người và đầu ra AI chia sẻ.
Các phần theo công thức. Các phần phương pháp, mô tả quy trình và đánh giá tài liệu theo các mẫu cụ thể của ngành. Mỗi nhà nghiên cứu đều viết "dữ liệu được thu thập bằng cách sử dụng các cuộc phỏng vấn bán cấu trúc" theo cùng một cách. Các công cụ phát hiện không thể phân biệt giữa quy ước và tạo ra.
Từ vựng có độ biến thiên thấp. Một số lĩnh vực — luật, y tế, kỹ thuật — sử dụng từ vựng chuyên ngành với các tùy chọn đồng nghĩa hạn chế. Khi bạn phải sử dụng các thuật ngữ cụ thể nhiều lần, văn bản của bạn trông có vẻ "dễ đoán" hơn đối với một công cụ phát hiện dựa trên độ phức tạp.
Tiếng Anh không phải là ngôn ngữ mẹ đẻ. Chúng tôi liên tục quay lại vấn đề này vì đây là phát hiện đáng lo ngại nhất. Các nhà nghiên cứu viết bằng ngôn ngữ thứ hai tạo ra văn bản với độ đa dạng từ vựng thấp hơn và nhiều cấu trúc theo công thức hơn — chính xác là những mẫu mà các công cụ phát hiện liên kết với AI. Điều này tạo ra một kết quả phân biệt mà hầu hết các tổ chức chưa giải quyết.
Worried About False Positives?
Our text humanizer adds natural variance to your writing — whether AI-assisted or not. Reduce false positive risk without changing your ideas.
Try It FreeĐiều này có nghĩa gì đối với các nhà nghiên cứu sử dụng công cụ AI
Nếu bạn đang sử dụng AI như một trợ lý viết — soạn thảo, cấu trúc lại, tinh chỉnh — cảnh quan phát hiện tạo ra một vấn đề thực sự. Ngay cả văn bản bạn viết hoàn toàn bằng tay cũng có thể bị đánh dấu. Văn bản có hỗ trợ AI gần như chắc chắn sẽ bị đánh dấu trừ khi bạn thực hiện các bước để nhân hóa nó.
Các khuyến nghị của chúng tôi dựa trên thử nghiệm này:
Đừng tin tưởng vào phán quyết của bất kỳ công cụ phát hiện nào. Chúng tôi đã thấy các mẫu ghi điểm 5% trên một công cụ và 68% trên một công cụ khác. Nếu tổ chức của bạn sử dụng một công cụ phát hiện, đó là công cụ quan trọng cho sự tuân thủ — nhưng một điểm số đơn lẻ không phải là bằng chứng về việc sử dụng AI.
Nhân hóa một cách chiến lược. Đầu ra AI thô có thể bị phát hiện. Văn bản đã được nhân hóa tốt thì hầu như không. Nếu bạn đã sử dụng sự hỗ trợ của AI, hãy chạy bản nháp của bạn qua một công cụ nhân hóa chất lượng và thêm giọng nói cá nhân của bạn. Thử nghiệm của chúng tôi cho thấy sự kết hợp này đã giảm điểm phát hiện xuống dưới 15% qua cả năm công cụ.
Lưu trữ các bản nháp của bạn. Lưu các phiên bản trung gian của công việc của bạn. Lịch sử trình duyệt, nhật ký cuộc trò chuyện ChatGPT, PDF có chú thích, ghi chú viết tay — tất cả đều cung cấp bằng chứng về quy trình viết của bạn nếu bạn bị chất vấn.
Vận động cho các chính sách tổ chức tốt hơn. Các công cụ phát hiện AI không đủ đáng tin cậy để làm bằng chứng duy nhất về sự không trung thực học thuật. Nếu trường đại học của bạn coi điểm AI của Turnitin là bằng chứng, hãy phản đối — bằng dữ liệu. Chia sẻ các nghiên cứu như nghiên cứu này.
Để biết các bước thực tiễn về việc xử lý văn bản bị đánh dấu, hãy xem hướng dẫn của chúng tôi về cách các nhà nghiên cứu đang vượt qua phát hiện AI mà không gian lận.
Cuộc chạy đua vũ trang phát hiện AI không có dấu hiệu chậm lại. Các công cụ phát hiện sẽ cải thiện. Nhưng các công cụ viết hỗ trợ AI cũng vậy. Giải pháp lâu dài không phải là phát hiện tốt hơn — mà là chính sách tốt hơn thừa nhận cách viết thực sự diễn ra bây giờ.
Công việc của bạn là có thật. Ý tưởng của bạn là có thật. Một thuật toán sai sót không nên là người phán xét điều đó.
Proofread and polish your manuscript with tracked changes. Built for academic writing.
Các câu hỏi thường gặp
Q: Công cụ phát hiện AI nào chính xác nhất?
Trong thử nghiệm của chúng tôi, Turnitin và Originality.ai đã ngang bằng với độ chính xác tổng thể cao nhất là 72% và 74% tương ứng qua tất cả các loại mẫu. Tuy nhiên, độ chính xác thay đổi đáng kể theo loại văn bản. Turnitin tốt nhất trong việc phát hiện đầu ra AI thô nhưng có nhiều dương tính giả hơn trên văn bản tiếng Anh không phải là ngôn ngữ mẹ đẻ. Originality.ai thì cân bằng hơn nhưng kém hiệu quả hơn trên văn bản đã được nhân hóa. Không có công cụ phát hiện nào đạt được độ chính xác trên 80% qua tất cả các loại, điều này là một hạn chế đáng kể cho các công cụ được sử dụng để đưa ra quyết định về tính trung thực học thuật.
Q: Các công cụ phát hiện AI có hoạt động trên viết học thuật không?
Chúng hoạt động tốt hơn trên một số loại viết học thuật hơn những loại khác. Đầu ra AI thô, chưa chỉnh sửa theo phong cách học thuật thường bị phát hiện — tỷ lệ phát hiện dao động từ 70% đến 100% trong thử nghiệm của chúng tôi. Nhưng văn bản học thuật chính thức do con người viết kích hoạt dương tính giả với tỷ lệ đáng lo ngại — lên đến 12% trong thử nghiệm của chúng tôi. Các lĩnh vực kỹ thuật với từ vựng chuyên ngành và những người viết tiếng Anh không phải là ngôn ngữ mẹ đẻ bị ảnh hưởng không tương xứng. Câu trả lời ngắn gọn là: các công cụ phát hiện AI hoạt động trên viết học thuật, nhưng không đủ đáng tin cậy để làm bằng chứng độc lập.
Q: Tần suất các công cụ phát hiện AI đánh dấu văn bản của con người?
Trong thử nghiệm của chúng tôi với 20 mẫu do con người viết (10 người nói tiếng Anh bản ngữ, 10 người không phải là ngôn ngữ mẹ đẻ), 9 mẫu — 45% — nhận được điểm AI trên 20% trên ít nhất một công cụ. Ba văn bản do con người viết ghi điểm trên 50% trên ít nhất một công cụ. Tỷ lệ dương tính giả trên mỗi công cụ dao động từ 4% đến 12%. Nếu bạn là người nói tiếng Anh không phải là ngôn ngữ mẹ đẻ viết văn bản học thuật chính thức, tỷ lệ dương tính giả còn cao hơn. Đây là lý do tại sao chúng tôi khuyên bạn nên giữ lại các bản nháp và bằng chứng quy trình bất kể bạn có sử dụng công cụ AI hay không.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.