真正有助于系统文献综述的人工智能工具
哪些人工智能工具真正有助于系统评价? 我们根据真实的审查协议测试了摘要器、筛选工具和数据提取助手。
去年在 BMJ Open 上发表的一篇系统综述从方案注册到提交花了 14 个月的时间。 由五名研究人员组成的团队在该项目上总共花费了 800 多个小时。 大约 60% 的时间用于筛选、数据提取和质量评估,而不是分析,不是写作,也不是证明系统评价存在合理性的智力工作。
我们想知道哪些用于系统审查的人工智能工具实际上可以减少时间负担。 理论上不是。 不在供应商演示中。 在实践中,基于真实的审查协议,具有真实的纳入标准和真实的论文。
所以我们进行了三个并行测试。 同样的 1,200 篇论文搜索结果。 相同的纳入标准。 一个团队使用传统方法。 其中之一使用了人工智能筛选工具。 其中一种方法采用了混合方法——人工智能进行初步筛查,人工验证边缘病例。 结果让我们感到惊讶。
系统复习时间问题
系统评价遵循严格的方法是有充分理由的。 结构化方法——预定义的搜索策略、明确的纳入标准、双重筛选、标准化数据提取——是将它们与叙述性评论区分开来并赋予其结论权威的原因。
但这种严格性伴随着残酷的时间成本。
健康科学领域的典型系统综述会筛选 2,000-5,000 个标题和摘要。 每个筛选决定需要 30-60 秒。 光是筛选就需要 17-83 个小时——通常由两名评审员独立完成,所以要加倍。 然后是 100-300 篇论文的全文审阅。 然后从 30-80 个成功的数据中提取数据。 然后对每项纳入的研究进行质量评估。
整个管道需要 6 至 18 个月的时间。 这是不可持续的,特别是对于那些需要发表系统评论来促进职业发展,同时还要承担教学、监督和其他研究任务的研究人员来说。
人工智能不会取代方法论。 但它可以压缩特定阶段。
用于筛选和选择的人工智能工具
筛选是最耗时的阶段,也是人工智能工具取得最大进展的阶段。
人工智能筛选的工作原理。 您根据纳入标准和一小部分已筛选的论文(可能有 50-100 篇您手动分类为“纳入”或“排除”的论文)来训练该工具。 人工智能学习该模式并将其应用于剩余的论文,并根据包含概率对它们进行排名。
在我们的测试中,人工智能辅助团队在 4 小时内筛选了 1,200 个标题和摘要。 传统团队需要26个小时。 混合团队——人工智能首次通过,人工验证边界案例——花了 9 个小时。
准确性是关键问题。 仅使用 AI 的方法的灵敏度为 94%,这意味着它正确识别了 94% 应该包含的论文。 它错过了6%。 从系统评价的角度来看,6% 的漏检率令人担忧。 错过相关研究的系统回顾会破坏其本身的目的。
混合方法弥补了这些失误。 AI 将论文标记为“可能包含”、“可能排除”或“不确定”。 人类手动检查“不确定”的一堆。 综合灵敏度:99%。 合计时间:9 小时与 26 小时。这是我们推荐的方法。
在筛选工具中寻找什么。 该工具需要接受您的特定纳入和排除标准 - 不仅仅是关键字,还有概念标准,例如“涉及成年人群的研究”或“随机对照试验设计”。 它应该为每个决策提供置信度分数,并允许您设置“不确定”类别的阈值。 较低的门槛意味着更多的论文进入人工评审,但被错过的论文更少。
AI总结数据提取
数据提取是我们发现用于系统审查的人工智能工具真正发挥作用的地方,也是它们未被充分利用的地方。
传统的数据提取意味着阅读每篇包含的论文并将信息手动输入到电子表格中:样本大小、人群特征、干预细节、结果测量、主要发现、偏倚风险指标。 对于 50 篇收录论文,这需要 50-100 小时。
我们使用配置为结构化提取的 AI summarizer 测试了 AI 辅助数据提取。 我们提供每一篇包含的论文,并要求提供与我们的提取形式相匹配的具体数据点:研究设计、样本量、参与者人口统计、干预描述、主要结果测量、主要发现与效应大小以及作者报告的局限性。
结果很有启发性。 对于清晰报告的数据(样本量、研究设计、主要结果),AI 的提取准确率高达 92%。 对于细致入微的数据——具体分析了哪些亚组、如何处理人员流失、进行了哪些敏感性分析——准确度下降至 71%。
我们推荐的工作流程:使用人工智能进行初始提取,然后让人工审阅者根据原始论文验证每个提取的数据点。 每篇论文的验证步骤大约需要 10 分钟,而完全手动提取则需要 60-120 分钟。 总时间节省:大约 70%。
验证步骤是不可协商的。 使用不准确的提取数据进行系统审查比根本没有审查更糟糕。
人工智能在系统评价中还不能做什么
我们希望直接了解这些限制,因为过度承诺是这个领域的一个真正问题。
质量评估需要判断。 偏倚风险评估(使用 Cochrane RoB 2 或纽卡斯尔-渥太华量表等工具)需要评估研究的设计和报告是否充分。 人工智能可以标记潜在的问题(“没有提及致盲”或“流失率超过20%”),但最终判断这些问题是否构成严重的偏见风险需要当前人工智能所缺乏的方法论专业知识。
**综合本质上是人为的。**决定研究是否足够相似以合并到荟萃分析中,在固定效应和随机效应模型之间进行选择,解释异质性 - 这些决策需要统计专业知识和领域知识。 人工智能可以组织您的数据。 它无法拨打这些电话。
**方案开发需要您的专业知识。**定义研究问题、选择数据库、制定搜索策略、设定纳入标准——系统评价的基础建立在您对该领域的了解之上。 没有人工智能工具可以告诉你什么问题值得问。
PRISMA 报告仍然需要您的关注。 PRISMA 流程图、您的检索和筛选过程的详细报告 - 这些需要准确记录您在审核期间实际发生的情况,包括您如何使用 AI 工具。 人们越来越期望人工智能辅助步骤的透明度。
Speed Up Your Systematic Review
Use structured AI summarization for data extraction. Upload papers and get standardized extraction outputs aligned with your protocol.
Try It Free2026年最好的系统评价工具
以下是我们根据我们的测试以及与六个研究机构的审核团队的对话发现的有效方法。
对于筛选: Rayyan 和 ASReview 仍然是最强大的专用筛选工具。 两者都支持通过主动学习进行半自动筛选。 ASReview 是开源的,并且大力支持符合 PRISMA 标准的 AI 辅助筛选过程报告。 Rayyan 为多审阅者团队提供了更精美的界面和更好的协作功能。
对于数据提取: 这就是通用人工智能工具(包括我们的摘要器)实际上优于专用系统审查工具的地方。 原因是灵活性。 专用工具将您锁定在预定义的提取字段中。 一个好的人工智能摘要器可以让您准确指定要提取的数据点,匹配您的自定义提取表单。 我们发现这对于标准提取模板不适合的跨学科审查特别有价值。
对于参考文献管理和重复数据删除: Covidence 处理从筛选到提取的完整工作流程,并与主要参考文献管理器集成。 对于个人研究人员来说这是昂贵的,但对于进行多次审查的团队来说是值得的。
对于翻译: 如果您的评论包含非英语论文(随着系统评论扩展到英语文献之外,这种情况越来越常见),AI 翻译工具 可以帮助您筛选和提取其他语言的论文。 我们用德语、西班牙语和普通话的 40 篇论文对此进行了测试,翻译质量足以准确筛选和提取这三种语言。
对于写作阶段: 在数据提取和综合之后,你仍然需要写评论。 对于输入散文的文献综述摘要过程,我们单独详细介绍了工作流程。
2026 年的系统审核工具确实比两年前更好。 但是——这一点很重要——它们都不是交钥匙解决方案。 它们都需要设置时间、培训数据和人工监督。 在规划审核时间表时为此做好预算。
人工智能辅助下的现实时间表
根据我们的测试,以下是在适当阶段集成人工智能工具的系统审核时间表。
方案制定: 2-4 周。 这里没有人工智能捷径。
搜索执行: 1-2 天。 数据库没有太大变化。
筛查(人工智能辅助): 1-2 周,而不是 4-8 周。 AI 执行第一遍。 您验证边界情况并解决分歧。
全文审阅: 2-3 周。 还是手动的。 人工智能可以帮助您找到论文中的特定部分,但包含的决定需要人类的判断。
数据提取(人工智能辅助): 2-3 周而不是 6-10 周。 人工智能进行初始提取。 您对照原始文件进行验证。
质量评估: 2-3 周。 还是以手动为主。
综合和写作: 4-8 周。 您的专业知识推动这一阶段。
总计:3-6 个月,而不是 8-18 个月。 对于管理多个项目和职业时间表的研究人员来说,这是一个有意义的差异。
Structured data extraction from academic papers. Customizable extraction fields for systematic review protocols.
进一步阅读
常见问题
问:人工智能工具可以用于系统文献综述吗?
是的——而且越来越多地是这样。 《临床流行病学杂志》2025 年的一项调查发现,已发表的系统评价中有 34% 报告使用至少一种人工智能辅助工具,高于 2023 年的 8%。关键是透明度:报告您使用了哪些工具、在哪个阶段以及如何验证人工智能输出。 PRISMA 2020 指南并不禁止人工智能辅助,即将推出的 PRISMA-AI 扩展将为人工智能辅助审评提供具体的报告指南。
问:PRISMA 指南允许人工智能辅助筛查吗?
目前的 PRISMA 2020 指南并未专门针对人工智能辅助筛查,但确实要求对筛查过程进行透明报告。 如果您使用人工智能进行初步筛选,请报告:描述该工具、使用的训练数据、您设置的敏感度阈值以及不确定情况下的人工验证过程。 系统审核社区正在朝着明确的指导方向迈进——PRISMA-AI 工作组自 2024 年以来一直在制定报告标准——但与此同时,透明度是您的保障。
问:哪种人工智能工具最适合进行系统评价?
没有单一的最佳工具,因为系统评价涉及多个不同的任务。 对于筛查,ASReview(开源)和 Rayyan 提供最好的证据支持的人工智能辅助筛查。 对于数据提取,具有结构化提取功能的通用人工智能摘要器(例如我们的)比专用工具提供了更大的灵活性。 对于完整的工作流程,Covidence 提供最集成的体验。 我们建议根据您的评论的具体需求使用混合工具,而不是强迫一个平台来处理所有事情。

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.