How to Use AI for a PRISMA-Compliant Systematic Review
A practical guide to using AI in systematic reviews without breaking PRISMA compliance. Where AI legitimately helps (screening, extraction), where it shouldn't, the reporting requirements, and a step-by-step workflow.
系統的レビューには、3 人の研究者からなるチームが 6 ~ 9 か月かかりました。ボトルネックは読み取りではなく、スクリーニングでした。 PubMed、Embase、Scopus、および Cochrane から抽出された 12,000 件の抄録は、それぞれ事前に登録された基準に含めるか除外するかを決定するために 2 人の独立した査読者を必要としています。数学がキャリアを牽引した時代。
AI はその計算を変えました。最新の言語モデルは、数秒で要約をスクリーニングし、数分で全文 PDF から研究の特徴を抽出し、数百の論文にわたって数時間で要約することができます。 AI を注意深く使用すると、レビューのスクリーニング段階が数か月から数週間に短縮されます。不用意に使用すると、ピアレビューに合格しない、再現不可能で準拠していない文書が生成されます。
このガイドでは、PRISMA 準拠のレビューにおいて AI が合法的に役立つ場所、AI が作業を行うべきではない場所、AI の使用に伴うレポート要件、PRISMA 2020 および PRISMA-trAIce 拡張機能を満たす段階的なワークフローについて説明します。
PRISMA に実際に必要なもの (簡単なおさらい)
PRISMA 2020 は、系統的レビューのための標準的な報告チェックリストです。それは、あなたがそれをどのように行うかではなく、あなたが何をしたかをどのように説明するかを決定します。 AI の使用に関連する部分は次のとおりです。
検索戦略レポート。 検索されたすべてのデータベース、使用されたすべての検索文字列、検索が実行されたすべての日付を文書化します。再現性が標準です。別の研究者が検索を再実行して同じ結果が得られるはずです。
スクリーニングレポート。 何件のレコードがスクリーニングされたか、何人の独立したレビュー担当者が、意見の相違がどのように解決されたか、各段階で何件が除外されたかを文書化します。古典的な PRISMA フロー図がここにあります。
データ抽出レポート。 どのデータが、誰によって抽出され、意見の不一致がどのように解決されたかを文書化します。
バイアス評価のリスク。 使用したツール (Cochrane RoB 2、ROBINS-I など) と実行者を文書化します。
逸脱を報告する 事前に登録されたプロトコルに従っていなかった場合は、理由を添えて報告する必要があります。
PRISMA-trAIce 拡張機能 (2024 年公開、2025 年更新) では、PRISMA 2020 に AI 固有のレポート要件が追加されています。短いバージョン: レビューで AI が使用された場合はどこでも、ツール、バージョン、プロンプト、人間による検証の実行方法を報告します。
Where AI legitimately helps
これらは、レビューの内容を変えることなく AI が作業を加速する用途です。
重複検出。 複数のデータベースから取得したレコードは重複することがよくあります。従来のリファレンス マネージャー (Zotero、EndNote、Covidence) はこれを適切に実行します。ここでは AI は過剰です。標準ツールを使い続けてください。
最初のタイトルと抄録のスクリーニング。 AI は、含める基準に照らして各抄録をスコアリングし、ランク付けまたは事前分類できます。最終的な包含/除外の決定は依然として 2 人の人間のレビュー担当者が行う必要がありますが、AI の事前分類により人間の時間が大幅に削減されます。これは、ほとんどのレビューで最も価値の高い AI の使用です。
全文検索とトリアージ。 AI は出版物のメタデータを抽出し、全文が要約の主張と一致するかどうかを識別し (一致しない場合もあります)、会議要約、正誤表、または異なるタイトルで重複した出版物であると思われる論文にフラグを付けることができます。
構造化論文からのデータ抽出。 患者の特徴、投与量、効果量の表 - AI はこれらを全文 PDF から構造化データ抽出シートに抽出し、2 人の人間の査読者が検証します。検証時間は完全な手動抽出よりもはるかに短くなります。
構成と執筆のサポート。 方法セクションのスクリーニング手順の説明の草案、PRISMA フロー図のテキストの草案、含まれる研究の特徴表の要約 — AI は、レビューの内容を変えることなく執筆を支援します。
英語以外の情報源の翻訳。 レビューに英語以外の論文が含まれている場合、AI 翻訳はこれらの情報源を含めることができるほど信頼性が高くなります。メソッドで使用されるツールを文書化します。
Where AI should NOT do the work
これらの使用は、人間のレビュー担当者が行わなければならない実質的な意思決定の一線を越えています。
最終的な包含/除外の決定。 PRISMA では、包含/除外のために 2 人の独立した人間のレビュー担当者が必要です。 AI は候補者を事前に分類、ランク付け、表面化することができますが、拘束力のある決定は人間が行う必要があります。これはコンプライアンス上、交渉の余地のないものです。
バイアス評価のリスク。 RoB ツールでは、研究デザイン、盲検化、減少、報告に関する判断が必要です。 AI は各領域について論文の内容を要約することはできますが、バイアス評価自体は人間が行う必要があります。
品質評価と証拠の等級 (GRADE)。 同じロジック。 AIが要約する。人間の評価。
不均一性の解釈 研究結果間の差異が臨床的不均一性、方法論的不均一性、または偶然を反映しているかどうかは、臨床的および方法論的な専門知識を必要とする判断です。
最終的な総合と結論 物語の総合、長所と限界の議論、臨床的意義 - これらは審査チームの貢献です。 AI は最初の文言を草案することはできますが、実質的な判断はあなた次第です。
捏造または製紙工場の内容の検出。 皮肉なことに、捏造された研究の AI 検出は依然として信頼性が低いです。疑わしい論文に対する人間の目と、問題のある論文スクリーナーのようなツールが現在の標準となっています。
The reporting requirements
レビューのどこかで AI を使用した場合、PRISMA-trAIce により報告が求められます。ほとんどのジャーナルを満足させる構造:
方法セクションのスクリーニング手順サブセクション:
抄録審査は2段階のプロセスで行われました。イニシャル
分類は [ツール名、バージョン、アクセス方法] を使用して実行されました。
API/Web on date] プロンプト テンプレート「[正確なプロンプト]」。
この分類は、人間によるレビューのための要約に優先順位を付けるために使用されました。
その後、最初の分類に関係なく、すべての抄録がスクリーニングされました
2 人の査読者 ([著者のイニシャル]) が独立して [Covidence /
Rayyan / その他のツール]、意見の相違は話し合いまたは次の方法で解決されます。
合意に達しなかった場合の 3 人目の査読者 ([著者のイニシャル])。
事前に [数] 件の抄録に対して実施された調整演習で、
本スクリーニング、AI分類は人間のコンセンサスと一致
[パーセント]% のケースで決定。決勝戦にはAIは使われなかった
包含または除外の決定。
「」
**メソッドセクションのデータ抽出サブセクション:**
```text
Data extraction was performed using a structured form (Appendix [X]).
Extraction of [specific data types, e.g., patient characteristics,
intervention details, outcome measurements] was supported by [Tool
Name, version], which extracted candidate values from full-text PDFs.
All extracted values were verified against the source PDFs by two
reviewers ([author initials]). Discrepancies between AI-extracted
values and source documents were corrected against the source in
[percentage]% of cases. The verified data informed the final
synthesis.
専用の「AI の使用」サブセクション (場合によっては別途必要):
The following AI tools were used in this review: [list each tool,
version, date range, and specific role]. No AI tool was used for
risk of bias assessment, quality grading, interpretation of
heterogeneity, or synthesis of conclusions. All AI-supported steps
were verified by [number] human reviewers as described above. The
prompts used are provided in Appendix [Y].
In the limitations section:
AI 関連の制限を認識します。事前分類における潜在的な体系的な偏り、内部動作が透明でない AI ツールへの依存、モデル バージョン間で AI の動作を完全に再現することの不可能性などです。
Summarize and Extract — with Verifiable Outputs
Paste a paper or paste an extraction request. Get back content you can verify against the source — fast.
Try the AI SummarizerThe workflow we recommend
PRISMA-trAIce を満たし、AI の強みを活用したシーケンス。
ステップ 1: プロトコルを事前登録します。 AI を使用する前に、レビューを登録します (医療レビューの場合は PROSPERO、その他の場合は OSF)。このプロトコルでは、包含基準、検索戦略、スクリーニング方法、抽出計画、および合成アプローチを指定します。 AIをどこでどのように使用するかをプロトコルで指定します。 AI について言及した事前登録は、事後開示よりもはるかに強力です。
ステップ 2: 調整演習を実行します。 検索から 100 ~ 200 の要約を選択します。 2 人の人間のレビュー担当者に独立して検査してもらいます。計画したプロンプトと同じセットで AI スクリーニングを実行します。一致メトリクス (コーエンのカッパ、一致パーセント) を計算します。 AI の一致が 0.7 カッパ未満、つまり人間のコンセンサス決定との 80% を下回っている場合は、プロンプトを改良するか、AI の使用を再検討します。
ステップ 3: メイン AI スクリーニング パスを実行します。 調整されたプロンプトを使用して、完全な要約コーパスをスクリーニングします。出力: ランク付けまたは分類されたリスト。人間のレビュー担当者はこのランキングを参照しますが、独自の独立した決定を下します。
ステップ 4: 2 人の査読者による独立した審査。 各抄録には引き続き 2 人の人間による査読者が付けられます。 AI の分類はメタデータであり、投票ではありません。意見の相違はディスカッションまたは 3 人目のレビュー担当者によって解決されます。
ステップ 5: AI 支援による全文スクリーニング AI は、全文の段階で明らかな除外事項 (言語が間違っている、要約のみ、撤回された論文など) にフラグを立てることができます。最終的な決断を下すのは人間です。
ステップ 6: AI 支援によるデータ抽出と検証。 AI が候補値を抽出します。 2 人の人間のレビュー担当者が情報源と照合して検証します。検証ログ自体がコンプライアンスの証拠となります。
ステップ 7: 偏見のリスク — 人間のみ。 このステップでは AI は使用しません。
ステップ 8: 合成 — 人間主導、AI 支援による執筆。 人間が解釈します。 AI は、含まれる研究表の研究の要約、手法セクションの草案作成、散文の洗練を支援します。実質的な解釈は依然として人間的なものです。
ステップ 9: 包括的に開示します。 方法セクションでは、上記のように AI の使用を報告します。完全な AI 使用に関する開示声明 は前付または謝辞に記載されています。使用される完全なプロンプトは付録に記載されています。
ステップ 10: 公開前監査 提出前に、2 番目のチーム メンバーが AI サポートの手順でドキュメントの完全性を監査します。プロンプトの欠落、バージョン番号の欠落、または検証パーセンテージの欠落が一般的な拒否トリガーです。
Common pitfalls
幻覚を起こした研究の特徴。 AI は、ソース論文にないデータ、つまり存在しない信頼区間、一致しないサンプルサイズ、文脈から捏造された介入の詳細などのデータを抽出することがあります。情報源に対する検証が唯一の防御策です。チームが抽出されたすべての値を検証していない場合、エラーを公開することになります。
レビュー全体でのプロンプト ドリフト。 レビュー中にプロンプトが洗練されて、すでにスクリーニングされた項目に対する AI の動作が変化します。プロンプトを変更した場合は、その理由を文書化し、影響を受ける項目を再スクリーニングします。
AI 分類への過度の依存。 一部のチームは、AI の分類を権威あるものとして扱うことで、AI に含める決定を効果的に委任しています。 PRISMA には人間の判断が必要です。 AI 入力は問題ありません。 AI の決定はそうではありません。
逸脱の文書化を忘れる。 事前に登録されたプロトコルと異なるものはすべて報告する必要があります。レビュー中に AI の使用が進化した場合は、その進化を文書化します。隠れたプロセス変更はピアレビューでフラグが立てられます。
ツールのバージョンが一貫していません。 AI モデルが更新されます。 1 月に抄録を上映した DeepSeek V3 は、6 月に入手可能なバージョンと同一ではありません。使用した各 AI ツールのバージョンと日付範囲を文書化します。
翻訳精度は想定されており、検証されていません。 AI 翻訳は優れていますが、特に臨床または技術的なコンテンツの場合は完璧ではありません。英語以外の情報源が含まれている場合は、誰が翻訳を検証したかを文書化してください。
Summarize papers, extract study characteristics, and draft synthesis text. Free tier includes every feature.
Frequently asked questions
Q: AI でスクリーニングされた抄録を PRISMA フロー図に含めることはできますか?
はい、ただし特定の帰属が必要です。標準の PRISMA 2020 フロー図には、特定された記録、スクリーニングされた記録、適格性について評価された記録、および含まれる記録のフィールドがあります。 AI がスクリーニングに使用された場合は、図またはそのキャプションに注記を追加します。「最初の AI サポートの分類は抄録のランク付けに使用されました。すべての抄録は 2 人の査読者による独立した人間によるスクリーニングを受けました。」一部のジャーナルは現在、AI がサポートするステップと人間のみが行うステップを分けて示す、より詳細なフロー図を要求しています。 PRISMA-trAIce 拡張機能は、このためのテンプレートを提供します。
Q: システマティック レビューで使用した AI ツールを引用するにはどうすればよいですか?
モデルとそのバージョンおよびアクセス日を記載します。標準形式: 「[モデル名]、バージョン [X.Y]、[API エンドポイント / Web インターフェイス] 経由でアクセスされた [日付範囲] (開発者: [会社])。URL: [ドキュメントへのリンク (可能な場合)]。」一部のジャーナルでは、使用される正確な API パラメーターを含む、より詳細な引用が必要です。著者向けのジャーナルの指示を確認してください。 AI ツールの引用規則はまだ進化しています。疑わしい場合は、詳細を少なくするのではなく、より多くの詳細を含めるようにしてください。
Q: What's the difference between PRISMA 2020 and PRISMA-trAIce?
PRISMA 2020は、システマティックレビューのための標準的な報告チェックリストであり、2009年版から更新されています。PRISMA-trAIce(2024年に公開)は、レビュー手順におけるAI支援ステップの報告要件を追加する拡張版です。現在では、多くのジャーナルが次の両方を求めています。一般的な報告にはPRISMA 2020、AI支援ステップがある場合にはPRISMA-trAIceです。trAIceチェックリストは12項目で構成されており、ツールのドキュメント、プロンプトの報告、キャリブレーション指標、人による検証手順をカバーしています。システマティックレビューのどこかでAIを使用する場合は、方法(methods)セクションでPRISMA-trAIceに言及してください。この内容を補完する、より広いワークフローのガイドについては、Using AI to Speed Up Your Literature Reviewをご覧ください。
Q: システマティック レビューで AI を使用すると、受理される可能性は低くなりますか?
私たちの経験では、AI の使用が開示され、適切に文書化されていれば、承認率は低下せず、多くの場合、審査が迅速化されます (方法がより明確で防御可能になります)。受け入れを低下させるのは、未公開の AI 使用、必要とされる人間の判断を代替する AI 使用、または認識されていない AI 関連の制限です。シグナル編集者とレビュー担当者が対応するのは、AI を放棄することではなく、厳格さと透明性です。スクリーニングに AI を使用し、その使用状況を詳細に報告し、キャリブレーション指標を含め、限界を認識する系統的レビューは、妥協したレビューではなく、方法論的に最新のレビューとして扱われます。

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.