آشکارسازهای هوش مصنوعی در سال 2026 چقدر دقیق هستند؟ ما 5 مورد از آنها را آزمایش کردیم
ما 50 نمونه متن را از طریق Turnitin، GPTZero، Copyleaks، ZeroGPT و Originality.ai اجرا کردیم. در اینجا چیزی است که ما در مورد دقت تشخیص هوش مصنوعی و موارد مثبت کاذب یافتیم.
یک دانشجوی دکترا در شبکه ما معرفی پایاننامهاش را بهعنوان 67 درصد هوش مصنوعی توسط سیستم تشخیص دانشگاهش علامتگذاری کرد. او هر کلمه را خودش طی چهار ماه نوشت. بدون ابزار هوش مصنوعی، بدون چککننده گرامر، حتی غلطگیری املا.
او دو هفته را صرف بازنویسی بخشها کرد تا امتیاز را کاهش دهد. کار کرد - اما نسخه بازنویسی شده بدتر از نسخه اصلی بود.
ما تصمیم گرفتیم بفهمیم که این ابزارها در واقع چقدر قابل اعتماد هستند. بنابراین ما پنج مورد از آنها را آزمایش کردیم.
روش آزمایش ما: 50 نمونه در 5 آشکارساز
ما 50 نمونه متن را جمع آوری کردیم که هر کدام بین 500 تا 800 کلمه بود. نمونه ها به پنج دسته تقسیم می شوند:
- ** 10 متن آکادمیک کاملاً نوشته شده توسط انسان ** - مقالات مجلات منتشر شده از 2018-2022، قبل از در دسترس بودن گسترده LLM نوشته شده است
- ** 10 متن کاملاً تولید شده توسط هوش مصنوعی ** - تولید شده توسط GPT-4o با دستورات آکادمیک، بدون ویرایش
- ** 10 متن تولید شده توسط هوش مصنوعی با ویرایش دستی سبک ** - پیش نویس های هوش مصنوعی با اصلاحات انسانی برای دقت و صوت
- ** 10 متن تولید شده توسط هوش مصنوعی از طریق [Text Humanizer] (/text-humanizer) ما پردازش شده است - مجوز کامل انسانی سازی به همراه بررسی دستی
- ** 10 متن نوشته شده توسط انسان توسط غیر انگلیسی زبانان ** - مقالات منتشر شده توسط محققانی که به زبان دوم یا سوم خود می نویسند.
ما هر نمونه را از طریق ماژول تشخیص هوش مصنوعی Turnitin، GPTZero، Copyleaks، ZeroGPT و Originality.ai اجرا کردیم. هر ابزار یک امتیاز احتمال هوش مصنوعی را برگرداند. ما هر امتیاز را ثبت کردیم و معیارهای دقت را محاسبه کردیم.
نتایج ما را شگفت زده کرد. نه به این دلیل که ابزارها کاملاً شکست خوردند - بلکه به این دلیل که الگوهای شکست بسیار ناسازگار بودند.
تشخیص هوش مصنوعی Turnitin: نتایج دقت
Turnitin به درستی 9 متن از 10 متن تولید شده با هوش مصنوعی را به درستی شناسایی کرد و به آنها امتیاز بالای 80٪ داد. این عملکرد خوب در خروجی هوش مصنوعی آشکار است.
جایی که مشکل داشت: مثبت کاذب. سه مورد از 10 متن آکادمیک که توسط انسان نوشته شده است، بالاتر از 20 درصد در شاخص هوش مصنوعی Turnitin کسب کردند. یکی - مرور ادبیات رسمی از یک مجله شیمی - امتیاز 38٪ را به دست آورد.
در متن انسانی، عملکرد Turnitin به طور قابل توجهی کاهش یافت. تنها 3 نمونه از 10 نمونه انسانی بالاتر از آستانه 20٪ امتیاز گرفتند. 7 نفر باقی مانده بین 2 تا 17 درصد امتیاز گرفتند.
نوشته های انگلیسی غیر بومی بدترین دسته بودند. چهار نمونه از 10 نمونه غیر بومی بالای 20 درصد علامت گذاری شده اند. یکی 52 درصد امتیاز گرفت. اینها مقالات واقعی منتشر شده توسط محققان انسانی واقعی بودند.
** دقت کلی Turnitin در آزمایش ما: 72٪. ** تا زمانی که متوجه ضریب خطای 28٪ نشوید، تقریباً 1 در 4 قضاوت ممکن است اشتباه باشد، قابل قبول به نظر می رسد.
GPTZero در مقابل Copyleaks در مقابل ZeroGPT: سر به سر
ما سه آشکارساز مستقل هوش مصنوعی را در برابر مجموعه نمونه کامل خود آزمایش کردیم.
GPTZero تهاجمی ترین آشکارساز بود. از هر 10 متن خام هوش مصنوعی 10 مورد را گرفت - یادآوری کامل. اما همچنین 4 متن نوشته شده توسط انسان و 5 متن انگلیسی غیر بومی را به عنوان عمدتاً تولید شده توسط هوش مصنوعی علامت گذاری کرد. میزان مثبت کاذب آن در آزمایش ما با 12 درصد بالاترین میزان بود.
کپی لیکس رویکرد محافظه کارانه تری داشت. 8 متن از 10 متن هوش مصنوعی را به درستی شناسایی کرد اما تنها 1 نمونه نوشته شده توسط انسان را اشتباه پرچم گذاری کرد. در متن انسانی، 4 از 10 را به دست آورد - آن را به بهترین عملکرد در برابر انسان سازی تبدیل کرد، اما هنوز بیش از نیمی از آن را از دست داده است.
ZeroGPT کمترین اعتماد را داشت. 7 متن از 10 متن هوش مصنوعی را به درستی پرچم گذاری کرد اما 3 متن نوشته شده توسط انسان را نیز به اشتباه پرچم گذاری کرد. بدتر از آن، نمرات آن در نوسان بود - ما یک نمونه را دو بار اجرا کردیم و در 30٪ مواقع نتایج متفاوتی گرفتیم. سازگاری در ابزار تشخیص اهمیت دارد و ZeroGPT آن را ارائه نکرده است.
Originality.ai روی متن خام هوش مصنوعی عملکرد خوبی داشت (9/10 شناسایی شد) و نرخ مثبت کاذب پایینی در متن انسانی داشت (1/10 به اشتباه پرچم گذاری شده بود). در متن انسانی، 5 از 10 را گرفت - وسط بسته.
خلاصه ناخوشایند اینجاست: هیچ آشکارساز به دقت کلی بالای 80 درصد در همه دستههای نمونه دست پیدا نکرد.
مشکل مثبت کاذب که هیچکس در مورد آن صحبت نمی کند
نکات مثبت کاذب، بحران آرام در تشخیص هوش مصنوعی است. وقتی یک آشکارساز به اشتباه متن نوشته شده توسط انسان را بهعنوان تولید شده توسط هوش مصنوعی پرچمگذاری میکند، بار اثبات را بر عهده نویسنده میگذارد. «ثابت کنید از هوش مصنوعی استفاده نکردهاید» تقریباً غیرممکن است.
آزمایش ما الگوهای ثابتی را پیدا کرد که در آنها متون انسانی به اشتباه پرچم گذاری می شدند:
نوشتار رسمی بسیار ساختارمند. هر چه نثر شما منظم تر و صیقلی تر باشد، احتمال بیشتری وجود دارد که آشکارساز آن را علامت گذاری کند. جملات موضوعی واضح، پیشرفت پاراگراف منطقی، اصطلاحات منسجم - همه اینها الگوهایی هستند که توسط نوشتار خوب انسانی و خروجی هوش مصنوعی مشترک هستند.
بخش های فرمولیک. بخش های روش ها، توضیحات رویه ای و بررسی ادبیات از الگوهای رشته خاص پیروی می کنند. هر محققی می نویسد "داده ها با استفاده از مصاحبه های نیمه ساختار یافته جمع آوری شده اند" به همین ترتیب. آشکارسازها نمی توانند قرارداد را از نسل تشخیص دهند.
** واژگان با آنتروپی کم. ** برخی از رشته ها - حقوق، پزشکی، مهندسی - از واژگان تخصصی با گزینه های مترادف محدود استفاده می کنند. هنگامی که باید از اصطلاحات خاص به طور مکرر استفاده کنید، متن شما برای یک آشکارساز مبتنی بر گیجی «قابل پیش بینی» به نظر می رسد.
انگلیسی غیر بومی. ما مدام به این موضوع بازمی گردیم، زیرا مشکل ترین یافته است. محققانی که به زبان دوم خود می نویسند، متنی با تنوع واژگانی کمتر و ساختارهای فرمولی بیشتری تولید می کنند - دقیقا همان الگوهایی که آشکارسازهای الگو با هوش مصنوعی مرتبط هستند. این یک نتیجه تبعیض آمیز ایجاد می کند که اکثر موسسات با آن دست و پنجه نرم نکرده اند.
Worried About False Positives?
Our text humanizer adds natural variance to your writing — whether AI-assisted or not. Reduce false positive risk without changing your ideas.
Try It Freeاین برای محققانی که از ابزارهای هوش مصنوعی استفاده می کنند به چه معناست
اگر از هوش مصنوعی به عنوان دستیار نوشتن استفاده میکنید - پیشنویس، بازسازی، صیقل دادن - چشمانداز تشخیص مشکلی واقعی ایجاد میکند. حتی متنی که کاملاً با دست نوشتهاید ممکن است علامتگذاری شود. متن با کمک هوش مصنوعی تقریباً مطمئناً پرچمگذاری میشود مگر اینکه اقداماتی برای انسانی کردن آن انجام دهید.
توصیه های ما بر اساس این آزمایش:
به حکم هیچ یک از آشکارسازها اعتماد نکنید. نمونه هایی را دیدیم که در یک ابزار 5% و در ابزار دیگر 68% امتیاز گرفتند. اگر مؤسسه شما از یک آشکارساز استفاده می کند، این آشکارساز برای انطباق مهم است - اما یک امتیاز تنها مدرکی برای استفاده از هوش مصنوعی نیست.
به لحاظ استراتژیک انسانی کنید. خروجی خام هوش مصنوعی قابل تشخیص است. متن به خوبی انسانی عمدتاً اینطور نیست. اگر از کمک هوش مصنوعی استفاده میکنید، پیشنویس خود را از طریق ابزار انسانسازی با کیفیت اجرا کنید و صدای شخصی خود را اضافه کنید. آزمایش ما نشان داد که این ترکیب امتیازات تشخیص را در هر پنج ابزار به کمتر از 15٪ کاهش می دهد.
پیش نویس های خود را نگه دارید. نسخه های متوسط کار خود را ذخیره کنید. سابقه مرورگر، گزارشهای مکالمه ChatGPT، پیدیافهای حاشیهنویسی، یادداشتهای دستنویس - همه اینها مدرکی از روند نوشتن شما را ارائه میدهند، اگر تا به حال از شما سؤال شود.
از سیاست های سازمانی بهتر حمایت کنید. ابزارهای تشخیص هوش مصنوعی به اندازه کافی قابل اعتماد نیستند که به عنوان تنها مدرکی برای عدم صداقت دانشگاهی عمل کنند. اگر دانشگاه شما امتیاز هوش مصنوعی Turnitin را به عنوان مدرک تلقی می کند، با داده ها عقب نشینی کنید. مطالعاتی مانند این را به اشتراک بگذارید
برای گامهای عملی در مورد مدیریت متن پرچمگذاریشده، به راهنمای ما در مورد [چگونه محققان در حال دور زدن تشخیص هوش مصنوعی بدون تقلب هستند] (/blog/bypass-ai-detection-academic-writing) مراجعه کنید.
مسابقه تسلیحاتی تشخیص هوش مصنوعی کند نمی شود. آشکارسازها بهبود خواهند یافت. اما ابزارهای نوشتاری به کمک هوش مصنوعی نیز همینطور خواهند بود. راه حل درازمدت تشخیص بهتر نیست - سیاست بهتری است که تصدیق کند نوشتن در حال حاضر چگونه اتفاق می افتد.
کار شما واقعی است ایده های شما واقعی است. یک الگوریتم معیوب نباید در این مورد قضاوت کند.
Proofread and polish your manuscript with tracked changes. Built for academic writing.
سوالات متداول
سؤال: کدام آشکارساز هوش مصنوعی دقیق تر است؟
در آزمایش ما، Turnitin و Originality.ai بالاترین دقت کلی را به ترتیب با 72٪ و 74٪ در همه دسته های نمونه داشتند. با این حال، دقت بسته به نوع متن به طور قابل توجهی متفاوت بود. Turnitin در گرفتن خروجی خام هوش مصنوعی بهترین بود، اما در متن انگلیسی غیر بومی، مثبت کاذب بیشتری داشت. Originality.ai متعادلتر بود، اما تأثیر کمتری بر متن انسانی داشت. هیچ آشکارساز منفردی به دقت بالای 80 درصد در همه دستهها دست پیدا نکرد، که محدودیت قابل توجهی برای ابزارهایی است که برای تصمیمگیری یکپارچگی تحصیلی استفاده میشوند.
سؤال: آیا آشکارسازهای هوش مصنوعی روی نوشتن آکادمیک کار می کنند؟
آنها در برخی از انواع نوشته های دانشگاهی بهتر از سایرین کار می کنند. خروجی خام و ویرایش نشده هوش مصنوعی در سبک آکادمیک معمولاً مشاهده می شود - نرخ تشخیص در آزمون ما از 70٪ تا 100٪ متغیر بود. اما متن رسمی آکادمیک نوشته شده توسط انسان، نتایج مثبت کاذب را با نرخ های نگران کننده ایجاد می کند - تا 12٪ در آزمایش ما. رشته های فنی با واژگان تخصصی و نویسندگان غیر بومی انگلیسی به طور نامتناسبی تحت تأثیر قرار می گیرند. پاسخ کوتاه این است: آشکارسازهای هوش مصنوعی روی نوشتههای آکادمیک کار میکنند، اما به اندازه کافی قابل اعتماد نیستند که به عنوان مدرک مستقل عمل کنند.
سؤال: آشکارسازهای هوش مصنوعی هر چند وقت یکبار نوشته های انسان را علامت گذاری می کنند؟
در آزمایش ما از 20 نمونه نوشته شده توسط انسان (10 نمونه انگلیسی بومی، 10 نمونه غیر بومی)، 9 نمونه - 45٪ - نمره هوش مصنوعی بالای 20٪ در حداقل یک آشکارساز دریافت کردند. سه متن نوشته شده توسط انسان حداقل در یک ابزار بیش از 50٪ امتیاز گرفتند. نرخ مثبت کاذب در هر آشکارساز از 4٪ تا 12٪ متغیر بود. اگر شما یک انگلیسی زبان غیر بومی هستید که نثر رسمی آکادمیک می نویسد، احتمال مثبت کاذب حتی بیشتر است. به همین دلیل است که توصیه میکنیم پیشنویسها و مدارک پردازش را بدون توجه به اینکه آیا از ابزارهای هوش مصنوعی استفاده میکردید، نگه دارید.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.