2026 সালে এআই ডিটেক্টর কতটা সঠিক? আমরা তাদের মধ্যে 5টি পরীক্ষা করেছি
আমরা Turnitin, GPTZero, Copyleaks, ZeroGPT, এবং Originality.ai এর মাধ্যমে 50টি পাঠ্য নমুনা চালিয়েছি। AI সনাক্তকরণের নির্ভুলতা এবং মিথ্যা ইতিবাচক সম্পর্কে আমরা যা পেয়েছি তা এখানে।
আমাদের নেটওয়ার্কে একজন পিএইচডি ছাত্র তার থিসিসের ভূমিকাকে তার বিশ্ববিদ্যালয়ের সনাক্তকরণ সিস্টেম দ্বারা 67% AI-উত্পন্ন হিসাবে পতাকাঙ্কিত করেছিল। তিনি চার মাস ধরে প্রতিটি শব্দ নিজেই লিখেছেন। কোন AI টুল নেই, কোন ব্যাকরণ পরীক্ষক নেই, এমনকি বানান পরীক্ষাও নেই।
তিনি স্কোর কম করার জন্য বিভাগগুলি পুনর্লিখন করতে দুই সপ্তাহ কাটিয়েছেন। এটি কাজ করেছিল - তবে পুনর্লিখিত সংস্করণটি আসলটির চেয়ে খারাপ ছিল।
আমরা এই সরঞ্জামগুলি আসলে কতটা নির্ভরযোগ্য তা খুঁজে বের করার সিদ্ধান্ত নিয়েছি। তাই আমরা তাদের পাঁচটি পরীক্ষা করেছি।
আমাদের পরীক্ষার পদ্ধতি: 5টি ডিটেক্টর জুড়ে 50টি নমুনা
আমরা 50টি পাঠ্য নমুনা একত্রিত করেছি, প্রতিটি 500 থেকে 800 শব্দের মধ্যে। নমুনাগুলি পাঁচটি বিভাগে পড়ে:
- 10টি সম্পূর্ণরূপে মানব-লিখিত একাডেমিক পাঠ্য — 2018-2022 থেকে প্রকাশিত জার্নাল নিবন্ধ, ব্যাপক LLM প্রাপ্যতার আগে লেখা
- 10টি সম্পূর্ণরূপে AI-উত্পাদিত পাঠ্য — একাডেমিক প্রম্পট সহ GPT-4o দ্বারা উত্পাদিত, কোনো সম্পাদনা নেই
- হাল্কা ম্যানুয়াল এডিটিং সহ 10 এআই-জেনারেট করা পাঠ্য — সঠিকতা এবং ভয়েসের জন্য মানুষের সংশোধন সহ AI খসড়া
- 10টি এআই-উত্পন্ন পাঠ্যগুলি আমাদের টেক্সট হিউম্যানাইজার এর মাধ্যমে প্রক্রিয়া করা হয়েছে — সম্পূর্ণ মানবিককরণ পাস এবং ম্যানুয়াল পর্যালোচনা
- নন-নেটিভ ইংলিশ স্পিকারদের দ্বারা 10টি মানব-লিখিত পাঠ — গবেষকদের দ্বারা প্রকাশিত গবেষণাপত্রগুলি তাদের দ্বিতীয় বা তৃতীয় ভাষায় লেখা
আমরা Turnitin এর AI সনাক্তকরণ মডিউল, GPTZero, Copyleaks, ZeroGPT, এবং Originality.ai-এর মাধ্যমে প্রতিটি নমুনা চালিয়েছি। প্রতিটি টুল একটি এআই সম্ভাব্যতা স্কোর ফিরিয়ে দিয়েছে। আমরা প্রতিটি স্কোর রেকর্ড করেছি এবং নির্ভুলতা মেট্রিক্স গণনা করেছি।
ফলাফল আমাদের বিস্মিত. সরঞ্জামগুলি সম্পূর্ণরূপে ব্যর্থ হওয়ার কারণে নয় - তবে ব্যর্থতার ধরণগুলি এতটাই অসঙ্গত ছিল।
টার্নিটিন এআই সনাক্তকরণ: নির্ভুলতা ফলাফল
টার্নিটিন সঠিকভাবে 10টির মধ্যে 9টি বিশুদ্ধরূপে এআই-উত্পন্ন পাঠ্য সনাক্ত করেছে, তাদের স্কোর 80% এর উপরে করেছে। এটি সুস্পষ্ট AI আউটপুটে শক্ত পারফরম্যান্স।
যেখানে এটি সংগ্রাম করেছে: মিথ্যা ইতিবাচক। আমাদের 10টি মানব-লিখিত একাডেমিক পাঠ্যগুলির মধ্যে তিনটি Turnitin এর AI সূচকে 20% এর উপরে স্কোর করেছে। একটি - একটি রসায়ন জার্নাল থেকে একটি আনুষ্ঠানিক সাহিত্য পর্যালোচনা - 38% স্কোর করেছে।
মানবিক টেক্সটে, টার্নিটিনের কর্মক্ষমতা উল্লেখযোগ্যভাবে কমে গেছে। 10টি মানবিক নমুনার মধ্যে মাত্র 3টি 20% থ্রেশহোল্ডের উপরে স্কোর করেছে। বাকি 7 জন 2% থেকে 17% এর মধ্যে স্কোর করেছে।
অ-নেটিভ ইংরেজি লেখা ছিল সবচেয়ে খারাপ বিভাগ। 10টি নন-নেটিভ নমুনার মধ্যে চারটি 20%-এর উপরে পতাকাঙ্কিত। একজন 52% স্কোর করেছে। এগুলি ছিল প্রকৃত মানব গবেষকদের দ্বারা প্রকাশিত গবেষণাপত্র।
আমাদের পরীক্ষায় টার্নিটিনের সামগ্রিক নির্ভুলতা: 72%। এটি গ্রহণযোগ্য বলে মনে হচ্ছে যতক্ষণ না আপনি বুঝতে পারেন 28% ত্রুটির হার মানে মোটামুটি 4 টির মধ্যে 1টি রায় ভুল হতে পারে।
জিপিটিজেরো বনাম কপিলিকস বনাম জিরোজিপিটি: মাথা থেকে মাথা
আমরা আমাদের সম্পূর্ণ নমুনা সেটের বিপরীতে তিনটি জনপ্রিয় স্বতন্ত্র এআই ডিটেক্টর পরীক্ষা করেছি।
GPTZero ছিল সবচেয়ে আক্রমণাত্মক ডিটেক্টর। এটি 10টি কাঁচা AI পাঠ্যের মধ্যে 10টি ধরেছে — নিখুঁত স্মরণ। তবে এটি 4টি মানব-লিখিত পাঠ্য এবং 5টি অ-নেটিভ ইংরেজি পাঠ্যকে প্রধানত এআই-উত্পন্ন হিসাবে পতাকাঙ্কিত করেছে। এর মিথ্যা ইতিবাচক হার আমাদের পরীক্ষায় সর্বোচ্চ 12% ছিল।
কপিলিক আরো রক্ষণশীল পদ্ধতি গ্রহণ করেছে। এটি সঠিকভাবে 10টি AI পাঠ্যের মধ্যে 8টি সনাক্ত করেছে কিন্তু শুধুমাত্র 1টি মানব-লিখিত নমুনা ভুলভাবে পতাকাঙ্কিত করেছে। হিউম্যানাইজড টেক্সটে, এটি 10টির মধ্যে 4টি ধরেছে — এটিকে মানবীকরণের বিরুদ্ধে সেরা পারফরমার তৈরি করেছে, কিন্তু এখনও অর্ধেকের বেশি অনুপস্থিত।
জিরোজিপিটি সবচেয়ে কম নির্ভরযোগ্য ছিল। এটি 10টি AI পাঠ্যের মধ্যে 7টি সঠিকভাবে পতাকাঙ্কিত করেছে কিন্তু 3টি মানব-লিখিত পাঠ্যকে ভুলভাবে পতাকাঙ্কিত করেছে। আরও খারাপ, এর স্কোর ওঠানামা করেছে — আমরা একই নমুনা দুবার চালিয়েছি এবং 30% সময় ভিন্ন ফলাফল পেয়েছি। একটি সনাক্তকরণ সরঞ্জামে ধারাবাহিকতা গুরুত্বপূর্ণ, এবং ZeroGPT এটি সরবরাহ করেনি।
Originality.ai কাঁচা AI টেক্সট (9/10 শনাক্ত করা হয়েছে) ভাল পারফর্ম করেছে এবং মানুষের টেক্সটে কম মিথ্যা ইতিবাচক হার ছিল (1/10 ভুলভাবে পতাকাঙ্কিত)। হিউম্যানাইজড টেক্সটে, এটি 10টির মধ্যে 5টি ধরেছে — প্যাকের মাঝখানে।
এখানে অস্বস্তিকর সংক্ষিপ্তসার দেওয়া হল: সমস্ত নমুনা বিভাগে 80% এর বেশি নির্ভুলতা অর্জন করেনি কোনো ডিটেক্টর।
মিথ্যা ইতিবাচক সমস্যা নিয়ে কেউ কথা বলে না
মিথ্যা ইতিবাচক হল AI সনাক্তকরণের শান্ত সংকট। যখন একটি ডিটেক্টর ভুলভাবে মানব-লিখিত পাঠ্যকে AI-উত্পাদিত হিসাবে পতাকাঙ্কিত করে, তখন এটি লেখকের উপর প্রমাণের বোঝা চাপিয়ে দেয়। "প্রমাণ আপনি AI ব্যবহার করেননি" একটি প্রায় অসম্ভব চাহিদা।
আমাদের পরীক্ষায় সামঞ্জস্যপূর্ণ নিদর্শন পাওয়া গেছে যেখানে মানব পাঠ্যগুলি মিথ্যাভাবে পতাকাঙ্কিত হয়েছে:
অতি সুগঠিত আনুষ্ঠানিক লেখা। আপনার গদ্য যত বেশি সংগঠিত এবং পালিশ করা হবে, একটি ডিটেক্টর এটিকে পতাকাঙ্কিত করবে। পরিষ্কার বিষয় বাক্য, যৌক্তিক অনুচ্ছেদের অগ্রগতি, সামঞ্জস্যপূর্ণ পরিভাষা — এই সবই ভাল মানুষের লেখা এবং এআই আউটপুট দ্বারা ভাগ করা প্যাটার্ন।
ফর্মুলিক বিভাগ। পদ্ধতি বিভাগ, পদ্ধতিগত বর্ণনা, এবং সাহিত্য পর্যালোচনা শৃঙ্খলা-নির্দিষ্ট টেমপ্লেট অনুসরণ করে। প্রত্যেক গবেষক লেখেন "অর্ধ-গঠিত সাক্ষাত্কার ব্যবহার করে ডেটা সংগ্রহ করা হয়েছিল" একইভাবে। ডিটেক্টর প্রজন্ম থেকে কনভেনশন আলাদা করতে পারে না।
নিম্ন-এনট্রপি শব্দভান্ডার। কিছু ক্ষেত্র — আইন, চিকিৎসা, প্রকৌশল — সীমিত প্রতিশব্দ বিকল্পগুলির সাথে বিশেষ শব্দভাণ্ডার ব্যবহার করে। যখন আপনাকে নির্দিষ্ট শব্দগুলি বারবার ব্যবহার করতে হবে, তখন আপনার পাঠ্য একটি বিভ্রান্তি-ভিত্তিক সনাক্তকারীর কাছে আরও "অনুমানযোগ্য" দেখায়।
নন-নেটিভ ইংলিশ। আমরা এটিতে ফিরে আসছি কারণ এটি খুঁজে পাওয়া সবচেয়ে সমস্যাজনক। গবেষকরা তাদের দ্বিতীয় ভাষায় লিখছেন কম আভিধানিক বৈচিত্র্য এবং আরও ফর্মুলাইক কাঠামোর সাথে পাঠ্য তৈরি করেন - ঠিক যে প্যাটার্ন ডিটেক্টর AI এর সাথে যুক্ত। এটি একটি বৈষম্যমূলক ফলাফল তৈরি করে যা বেশিরভাগ প্রতিষ্ঠানের সাথে জড়িত নয়।
Worried About False Positives?
Our text humanizer adds natural variance to your writing — whether AI-assisted or not. Reduce false positive risk without changing your ideas.
Try It Freeএআই টুল ব্যবহার করে গবেষকদের জন্য এর অর্থ কী
আপনি যদি AI-কে রাইটিং অ্যাসিস্ট্যান্ট হিসেবে ব্যবহার করেন — ড্রাফটিং, রিস্ট্রাকচারিং, পলিশিং — ডিটেকশন ল্যান্ডস্কেপ একটি প্রকৃত সমস্যা তৈরি করে। এমনকি টেক্সট আপনি সম্পূর্ণ হাত দ্বারা লিখেছেন পতাকাঙ্কিত হতে পারে. এআই-সহায়তা পাঠ্য প্রায় নিশ্চিতভাবে পতাকাঙ্কিত হবে যদি না আপনি এটিকে মানবিক করার পদক্ষেপ না নেন।
এই পরীক্ষার উপর ভিত্তি করে আমাদের সুপারিশ:
কোন একক ডিটেক্টরের রায়কে বিশ্বাস করবেন না। আমরা এমন নমুনা দেখেছি যেগুলি একটি টুলে 5% এবং অন্যটিতে 68% স্কোর করেছে। আপনার প্রতিষ্ঠান যদি একটি ডিটেক্টর ব্যবহার করে, তাহলে সেটিই সম্মতির জন্য গুরুত্বপূর্ণ - কিন্তু একটি একক স্কোর এআই ব্যবহারের প্রমাণ নয়।
কৌশলগতভাবে মানবীকরণ করুন। কাঁচা এআই আউটপুট সনাক্তযোগ্য। ভাল-মানবিক লেখা বেশিরভাগই নয়। আপনি যদি AI সহায়তা ব্যবহার করেন, তাহলে আপনার খসড়াটি গুণমান মানবীকরণ টুল এর মাধ্যমে চালান এবং আপনার ব্যক্তিগত ভয়েস যোগ করুন। আমাদের পরীক্ষায় দেখা গেছে যে এই সংমিশ্রণটি সমস্ত পাঁচটি টুল জুড়ে সনাক্তকরণের স্কোরকে 15% এর নিচে কমিয়েছে।
আপনার খসড়া রাখুন। আপনার কাজের মধ্যবর্তী সংস্করণ সংরক্ষণ করুন। ব্রাউজার ইতিহাস, চ্যাটজিপিটি কথোপকথনের লগ, টীকাযুক্ত পিডিএফ, হাতে লেখা নোট - এই সবই আপনার লেখার প্রক্রিয়ার প্রমাণ দেয় যদি আপনাকে কখনও প্রশ্ন করা হয়।
আরো ভাল প্রাতিষ্ঠানিক নীতির জন্য উকিল। এআই সনাক্তকরণ সরঞ্জামগুলি একাডেমিক অসততার একমাত্র প্রমাণ হিসাবে পরিবেশন করার জন্য যথেষ্ট নির্ভরযোগ্য নয়। যদি আপনার ইউনিভার্সিটি একটি Turnitin AI স্কোরকে প্রমাণ হিসাবে বিবেচনা করে, তাহলে ডেটা সহ — পিছনে ঠেলে দিন। এই এক মত পড়াশোনা শেয়ার করুন.
ফ্ল্যাগ করা টেক্সট পরিচালনার বাস্তব পদক্ষেপের জন্য, আমাদের গাইড দেখুন কীভাবে গবেষকরা প্রতারণা ছাড়াই এআই সনাক্তকরণকে বাইপাস করছেন।
এআই শনাক্তকরণ অস্ত্রের প্রতিযোগিতা কমছে না। ডিটেক্টর উন্নত হবে। তবে এআই-সহায়তা লেখার সরঞ্জামগুলিও তাই হবে। দীর্ঘমেয়াদী সমাধানটি আরও ভাল সনাক্তকরণ নয় - এটি আরও ভাল নীতি যা স্বীকার করে যে লেখা এখন কীভাবে ঘটে।
আপনার কাজ বাস্তব. আপনার ধারণা বাস্তব. একটি ত্রুটিপূর্ণ অ্যালগরিদম এর বিচারক হওয়া উচিত নয়।
Proofread and polish your manuscript with tracked changes. Built for academic writing.
প্রায়শই জিজ্ঞাসিত প্রশ্ন
প্রশ্ন: কোন এআই ডিটেক্টর সবচেয়ে নির্ভুল?
আমাদের পরীক্ষায়, Turnitin এবং Originality.ai সব নমুনা বিভাগে যথাক্রমে 72% এবং 74% সর্বোচ্চ সামগ্রিক নির্ভুলতার জন্য আবদ্ধ। যাইহোক, টেক্সট টাইপ দ্বারা সঠিকতা উল্লেখযোগ্যভাবে পরিবর্তিত হয়। টার্নিটিন কাঁচা এআই আউটপুট ধরার ক্ষেত্রে সেরা ছিল কিন্তু অ-নেটিভ ইংরেজি পাঠ্যের ক্ষেত্রে আরও মিথ্যা ইতিবাচক ছিল। Originality.ai আরও ভারসাম্যপূর্ণ কিন্তু মানবিক লেখার ক্ষেত্রে কম কার্যকর ছিল। কোনো একক ডিটেক্টর সমস্ত বিভাগে 80% নির্ভুলতা অর্জন করতে পারেনি, যা একাডেমিক অখণ্ডতার সিদ্ধান্ত নেওয়ার জন্য ব্যবহৃত সরঞ্জামগুলির জন্য একটি উল্লেখযোগ্য সীমাবদ্ধতা।
প্রশ্ন: এআই ডিটেক্টর কি একাডেমিক লেখার উপর কাজ করে?
তারা অন্যদের তুলনায় কিছু ধরনের একাডেমিক লেখার উপর ভাল কাজ করে। একাডেমিক স্টাইলে কাঁচা, অসম্পাদিত AI আউটপুট সাধারণত ধরা পড়ে — আমাদের পরীক্ষায় সনাক্তকরণের হার 70% থেকে 100% পর্যন্ত। কিন্তু আনুষ্ঠানিক মানব-লিখিত একাডেমিক পাঠ্য আমাদের পরীক্ষায় 12% পর্যন্ত - সম্পর্কিত হারে মিথ্যা ইতিবাচক ট্রিগার করে। বিশেষ শব্দভান্ডার সহ প্রযুক্তিগত ক্ষেত্রগুলি এবং অ-নেটিভ ইংরেজি লেখক অসমভাবে প্রভাবিত হয়। সংক্ষিপ্ত উত্তর হল: এআই ডিটেক্টরগুলি একাডেমিক লেখার উপর কাজ করে, কিন্তু স্বতন্ত্র প্রমাণ হিসাবে পরিবেশন করার জন্য যথেষ্ট নির্ভরযোগ্য নয়।
প্রশ্ন: এআই ডিটেক্টর কত ঘন ঘন মানুষের লেখার পতাকা দেয়?
আমাদের 20টি মানব-লিখিত নমুনার পরীক্ষায় (10টি স্থানীয় ইংরেজি, 10টি অ-নেটিভ), 9টি নমুনা - 45% - অন্তত একটি ডিটেক্টরে 20% এর উপরে AI স্কোর পেয়েছে। তিনটি মানব-লিখিত পাঠ্য কমপক্ষে একটি টুলে 50% এর উপরে স্কোর করেছে। ডিটেক্টর প্রতি মিথ্যা ইতিবাচক হার 4% থেকে 12% পর্যন্ত। আপনি যদি আনুষ্ঠানিক একাডেমিক গদ্য লেখেন একজন অ-নেটিভ ইংরেজি স্পিকার হন, তাহলে মিথ্যা ইতিবাচক হওয়ার সম্ভাবনা আরও বেশি। এই কারণেই আমরা ড্রাফ্টগুলি রাখার সুপারিশ করি এবং আপনি AI সরঞ্জামগুলি ব্যবহার করেছেন কিনা তা বিবেচনা না করে প্রমাণগুলি প্রক্রিয়া করুন৷

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.