2026年のAI検出器の精度はどれくらいか?5つをテストしました
Turnitin、GPTZero、Copyleaks、ZeroGPT、Originality.aiを通じて50のテキストサンプルを実行しました。AI検出の精度と誤検出についての発見をお伝えします。
私たちのネットワークの博士課程の学生は、彼女の論文の序論が大学の検出システムによって67%がAI生成とフラグ付けされました。彼女は4ヶ月間、すべての言葉を自分で書きました。AIツールも、文法チェッカーも、スペルチェックさえも使用していません。
彼女はスコアを下げるために2週間かけてセクションを書き直しました。それは効果がありましたが、書き直したバージョンは元のものよりも悪化しました。
私たちは、これらのツールが実際にどれほど信頼できるのかを正確に調べることに決めました。そこで、5つのツールをテストしました。
テスト方法論:5つの検出器で50のサンプル
私たちは、各サンプルが500〜800語の間にある50のテキストサンプルを集めました。サンプルは5つのカテゴリーに分かれました:
- 10の純粋に人間が書いた学術テキスト — 2018年から2022年の間に発表された学術雑誌の記事で、広範なLLMの利用可能性の前に書かれたもの
- 10の純粋にAI生成されたテキスト — 編集なしで学術的なプロンプトを使ってGPT-4oによって生成されたもの
- 軽い手動編集が施されたAI生成テキスト10件 — 精度と声のために人間の修正が加えられたAIドラフト
- 私たちのテキスト人間化ツールを通じて処理されたAI生成テキスト10件 — 完全な人間化と手動レビューを含む
- 非ネイティブ英語話者によって書かれた人間のテキスト10件 — 第二言語または第三言語で書かれた研究者による発表論文
私たちは、TurnitinのAI検出モジュール、GPTZero、Copyleaks、ZeroGPT、Originality.aiを通じてすべてのサンプルを実行しました。各ツールはAI確率スコアを返しました。私たちはすべてのスコアを記録し、精度メトリックを計算しました。
結果は私たちを驚かせました。ツールが完全に失敗したからではなく、失敗のパターンが非常に不一致だったからです。
Turnitin AI検出:精度結果
Turnitinは、純粋にAI生成されたテキスト10件のうち9件を正しく特定し、80%以上のスコアを付けました。明らかなAI出力に対しては堅実なパフォーマンスです。
苦労した点:誤検出です。私たちの10の人間が書いた学術テキストのうち3件が、TurnitinのAI指標で20%以上のスコアを付けました。1件 — 化学雑誌からの正式な文献レビュー — は38%のスコアを付けました。
人間化されたテキストでは、Turnitinのパフォーマンスは大幅に低下しました。10の人間化されたサンプルのうち、20%の閾値を超えたのは3件だけでした。残りの7件は2%から17%のスコアでした。
非ネイティブ英語の執筆は最悪のカテゴリーでした。10の非ネイティブサンプルのうち4件が20%以上のフラグを立てました。1件は52%のスコアを付けました。これらは実際の人間の研究者による実際の発表論文でした。
私たちのテストにおけるTurnitinの全体的な精度:72%。 これは受け入れ可能に聞こえますが、28%のエラーレートは約4件に1件の判断が誤っている可能性があることを意味します。
GPTZero vs Copyleaks vs ZeroGPT:直接対決
私たちは、最も人気のある3つのスタンドアロンAI検出器を完全なサンプルセットに対してテストしました。
GPTZeroは最も攻撃的な検出器でした。生のAIテキスト10件のうち10件を捕らえました — 完璧なリコール。しかし、4件の人間が書いたテキストと5件の非ネイティブ英語テキストを主にAI生成としてフラグ付けしました。誤検出率は私たちのテストで最も高く、12%でした。
Copyleaksはより保守的なアプローチを取りました。AIテキストのうち10件中8件を正しく特定しましたが、1件の人間が書いたサンプルを誤ってフラグ付けしました。人間化されたテキストでは、10件中4件を捕らえ — 人間化に対して最も良いパフォーマンスを示しましたが、依然として半分以上を見逃しました。
ZeroGPTは最も信頼性が低いものでした。AIテキストのうち10件中7件を正しくフラグ付けしましたが、3件の人間が書いたテキストを誤ってフラグ付けしました。さらに悪いことに、スコアが変動しました — 同じサンプルを2回実行したところ、30%の確率で異なる結果が得られました。検出ツールでは一貫性が重要であり、ZeroGPTはそれを提供しませんでした。
Originality.aiは、生のAIテキストで良好なパフォーマンスを示し(9/10検出)、人間のテキストに対する誤検出率も低かった(1/10が誤ってフラグ付けされた)。人間化されたテキストでは、10件中5件を捕らえ — 中間のパックでした。
不快な要約は次のとおりです:どの検出器もすべてのサンプルカテゴリーで80%を超える全体的な精度を達成しませんでした。
誰も話さない誤検出の問題
誤検出はAI検出における静かな危機です。検出器が人間が書いたテキストをAI生成として誤ってフラグ付けすると、作成者に証明責任がかかります。「AIを使用していないことを証明してください」は、ほぼ不可能な要求です。
私たちのテストでは、人間のテキストが誤ってフラグ付けされる一貫したパターンを見つけました:
高度に構造化された正式な執筆。 あなたの文章が整理され、洗練されているほど、検出器がフラグを立てる可能性が高くなります。明確なトピック文、論理的な段落の進行、一貫した用語 — これらはすべて、優れた人間の執筆とAI出力によって共有されるパターンです。
定型的なセクション。 方法セクション、手続きの説明、文献レビューは、学問特有のテンプレートに従います。すべての研究者は「データは半構造化インタビューを使用して収集されました」と同じように書きます。検出器は慣習と生成を区別できません。
低エントロピー語彙。 一部の分野 — 法律、医学、工学 — は、限られた同義語オプションを持つ専門用語を使用します。特定の用語を繰り返し使用する必要があると、あなたのテキストは混乱ベースの検出器にとって「予測可能」に見えます。
非ネイティブ英語。 私たちはこれに戻ってきます。なぜなら、これは最も問題のある発見だからです。第二言語で執筆する研究者は、語彙の多様性が低く、より定型的な構造を持つテキストを生成します — まさに検出器がAIと関連付けるパターンです。これは、ほとんどの機関が対処していない差別的な結果を生み出します。
AIツールを使用する研究者への意味
AIを執筆アシスタントとして使用している場合 — 草稿作成、再構成、仕上げ — 検出の状況は本当の問題を引き起こします。手で完全に書いたテキストでもフラグが立つ可能性があります。AI支援のテキストは、ほぼ確実にフラグが立つでしょう、あなたが人間化する手段を講じない限り。
このテストに基づく私たちの推奨事項:
単一の検出器の判断を信頼しないでください。 私たちは、あるツールで5%のスコアが付けられ、別のツールで68%のスコアが付けられたサンプルを見ました。あなたの機関が1つの検出器を使用している場合、それがコンプライアンスにとって重要です — しかし、単一のスコアはAI使用の証拠ではありません。
戦略的に人間化する。 生のAI出力は検出可能です。よく人間化されたテキストはほとんど検出されません。AI支援を使用した場合は、品質人間化ツールを通じてドラフトを実行し、あなたの個人的な声を加えてください。私たちのテストでは、この組み合わせがすべての5つのツールで検出スコアを15%未満に減少させることを示しました。
ドラフトを保存する。 作業の中間バージョンを保存してください。ブラウザの履歴、ChatGPTの会話ログ、注釈付きPDF、手書きのメモ — これらすべてが、あなたが質問された場合の執筆プロセスの証拠を提供します。
より良い機関の方針を提唱する。 AI検出ツールは、学術的不正の単独の証拠として十分に信頼できるものではありません。あなたの大学がTurnitinのAIスコアを証拠として扱う場合は、データを持って反論してください。このような研究を共有してください。
フラグ付けされたテキストの取り扱いに関する実用的な手順については、研究者が不正行為なしにAI検出を回避する方法に関するガイドをご覧ください。
AI検出の軍拡競争は減速していません。検出器は改善されます。しかし、AI支援の執筆ツールも同様です。長期的な解決策は、より良い検出ではなく、現在の執筆がどのように行われるかを認識するより良い方針です。
あなたの仕事は本物です。あなたのアイデアは本物です。欠陥のあるアルゴリズムがそれを判断すべきではありません。
変更履歴を追跡しながら原稿を校正し、仕上げます。学術執筆のために構築されています。
よくある質問
Q: どのAI検出器が最も正確ですか?
私たちのテストでは、TurnitinとOriginality.aiがすべてのサンプルカテゴリーでそれぞれ72%と74%の最高の全体的な精度で並びました。しかし、精度はテキストの種類によって大きく異なりました。Turnitinは生のAI出力を捕まえるのが最も得意でしたが、非ネイティブ英語のテキストではより多くの誤検出がありました。Originality.aiはよりバランスが取れていましたが、人間化されたテキストでは効果が薄かったです。どの単一の検出器もすべてのカテゴリーで80%を超える精度を達成しておらず、これは学術的な誠実性の決定に使用されるツールにとって重大な制限です。
Q: AI検出器は学術執筆に機能しますか?
それらは、ある種の学術執筆に対しては他のものよりもよく機能します。学術スタイルの生の未編集のAI出力は通常捕まえられます — 私たちのテストでは検出率は70%から100%の範囲でした。しかし、正式な人間が書いた学術テキストは、懸念される率で誤検出を引き起こします — 私たちのテストでは最大12%でした。専門用語を持つ技術分野や非ネイティブ英語の執筆者は不均衡に影響を受けます。短い答えは:AI検出器は学術執筆に機能しますが、単独の証拠として十分に信頼できるわけではありません。
Q: AI検出器はどのくらいの頻度で人間の執筆をフラグ付けしますか?
私たちの20の人間が書いたサンプル(10のネイティブ英語、10の非ネイティブ)のテストでは、9つのサンプル — 45% — が少なくとも1つの検出器で20%以上のAIスコアを受け取りました。3つの人間が書いたテキストは、少なくとも1つのツールで50%以上のスコアを付けました。検出器ごとの誤検出率は4%から12%の範囲でした。正式な学術的な文章を書く非ネイティブ英語話者の場合、誤検出の可能性はさらに高くなります。これが、AIツールを使用したかどうかにかかわらず、ドラフトとプロセスの証拠を保持することを推奨する理由です。

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.