Tóm tắt & Nghiên cứu

Công Cụ AI Thực Sự Hỗ Trợ Đánh Giá Tài Liệu Hệ Thống

Những công cụ AI nào thực sự giúp ích cho các đánh giá hệ thống? Chúng tôi đã thử nghiệm các công cụ tóm tắt, công cụ sàng lọc và trợ lý trích xuất dữ liệu trên các giao thức đánh giá thực tế.

Ema|Mar 8, 2026|8 min read

Công Cụ AI Thực Sự Hỗ Trợ Đánh Giá Tài Liệu Hệ Thống — ProofreaderPro.ai Blog

Một đánh giá hệ thống được công bố trong BMJ Open năm ngoái mất 14 tháng từ khi đăng ký giao thức đến khi nộp bài. Nhóm năm nhà nghiên cứu đã dành hơn 800 giờ làm việc cho dự án. Khoảng 60% thời gian đó được dành cho việc sàng lọc, trích xuất dữ liệu và đánh giá chất lượng — không phải phân tích, không phải viết, không phải công việc trí tuệ mà biện minh cho sự tồn tại của một đánh giá hệ thống.

Chúng tôi muốn biết những công cụ AI nào cho đánh giá hệ thống thực sự giảm bớt gánh nặng thời gian đó. Không phải lý thuyết. Không phải trong một buổi trình diễn của nhà cung cấp. Trong thực tế, trên các giao thức đánh giá thực tế với các tiêu chí bao gồm thực tế và các tài liệu thực tế.

Vì vậy, chúng tôi đã thực hiện ba thử nghiệm song song. Kết quả tìm kiếm 1.200 bài báo giống nhau. Các tiêu chí bao gồm giống nhau. Một nhóm sử dụng các phương pháp truyền thống. Một nhóm sử dụng các công cụ sàng lọc AI. Một nhóm sử dụng phương pháp hỗn hợp — AI cho sàng lọc ban đầu, xác minh của con người cho các trường hợp biên giới. Kết quả đã khiến chúng tôi ngạc nhiên.

Vấn đề thời gian đánh giá hệ thống

Các đánh giá hệ thống tuân theo một phương pháp nghiêm ngặt vì lý do chính đáng. Cách tiếp cận có cấu trúc — chiến lược tìm kiếm đã được xác định trước, tiêu chí bao gồm rõ ràng, sàng lọc kép, trích xuất dữ liệu chuẩn hóa — là điều tách biệt chúng khỏi các đánh giá tường thuật và mang lại thẩm quyền cho các kết luận của chúng.

Nhưng sự nghiêm ngặt đó đi kèm với một chi phí thời gian khắc nghiệt.

Một đánh giá hệ thống điển hình trong khoa học sức khỏe sàng lọc 2.000–5.000 tiêu đề và tóm tắt. Mỗi quyết định sàng lọc mất 30–60 giây. Đó là 17–83 giờ chỉ riêng cho việc sàng lọc — thường được thực hiện độc lập bởi hai người đánh giá, vì vậy hãy nhân đôi nó. Sau đó là đánh giá toàn văn của 100–300 bài báo. Sau đó là trích xuất dữ liệu từ 30–80 bài báo mà đã vượt qua. Sau đó là đánh giá chất lượng của từng nghiên cứu được bao gồm.

Toàn bộ quy trình mất 6–18 tháng. Điều đó không bền vững, đặc biệt là đối với các nhà nghiên cứu cần công bố các đánh giá hệ thống để phát triển sự nghiệp nhưng cũng có các cam kết giảng dạy, giám sát và nghiên cứu khác.

AI sẽ không thay thế phương pháp. Nhưng nó có thể rút ngắn các giai đoạn cụ thể.

Công cụ AI cho sàng lọc và lựa chọn

Sàng lọc là giai đoạn tốn thời gian nhất và là giai đoạn mà các công cụ AI đã có nhiều tiến bộ nhất.

Cách hoạt động của sàng lọc AI. Bạn đào tạo công cụ trên các tiêu chí bao gồm của bạn và một tập hợp nhỏ các bài báo đã được sàng lọc — có thể là 50–100 bài mà bạn đã phân loại thủ công là "bao gồm" hoặc "không bao gồm." AI học mẫu và áp dụng nó cho các bài báo còn lại, xếp hạng chúng theo xác suất bao gồm.

Trong thử nghiệm của chúng tôi, nhóm hỗ trợ AI đã sàng lọc 1.200 tiêu đề và tóm tắt trong 4 giờ. Nhóm truyền thống mất 26 giờ. Nhóm hỗn hợp — AI lần đầu, xác minh của con người cho các trường hợp biên giới — mất 9 giờ.

Độ chính xác là câu hỏi quan trọng. Phương pháp chỉ sử dụng AI có độ nhạy 94% — có nghĩa là nó xác định chính xác 94% các bài báo mà lẽ ra nên được bao gồm. Nó bỏ lỡ 6%. Trong các thuật ngữ đánh giá hệ thống, tỷ lệ bỏ lỡ 6% đó là đáng lo ngại. Một đánh giá hệ thống bỏ lỡ các nghiên cứu liên quan sẽ làm suy yếu mục đích của nó.

Phương pháp hỗn hợp đã bắt được những trường hợp bỏ lỡ đó. AI đã đánh dấu các bài báo là "có khả năng bao gồm," "có khả năng không bao gồm," hoặc "không chắc chắn." Con người đã xem xét đống "không chắc chắn" một cách thủ công. Độ nhạy kết hợp: 99%. Thời gian kết hợp: 9 giờ so với 26. Đó là phương pháp mà chúng tôi khuyên dùng.

Những gì cần tìm trong một công cụ sàng lọc. Công cụ cần chấp nhận các tiêu chí bao gồm và không bao gồm cụ thể của bạn — không chỉ từ khóa mà còn các tiêu chí khái niệm như "các nghiên cứu liên quan đến dân số trưởng thành" hoặc "thiết kế thử nghiệm ngẫu nhiên có đối chứng." Nó nên cung cấp điểm tin cậy cho mỗi quyết định và cho phép bạn đặt ngưỡng cho danh mục "không chắc chắn." Một ngưỡng thấp hơn có nghĩa là nhiều bài báo sẽ được đưa vào xem xét của con người nhưng ít bài bị bỏ lỡ hơn.

Tóm tắt AI cho trích xuất dữ liệu

Trích xuất dữ liệu là nơi chúng tôi thấy các công cụ AI cho đánh giá hệ thống thực sự tỏa sáng — và nơi chúng chưa được sử dụng nhiều.

Trích xuất dữ liệu truyền thống có nghĩa là đọc từng bài báo được bao gồm và nhập thông tin vào một bảng tính: kích thước mẫu, đặc điểm dân số, chi tiết can thiệp, các biện pháp kết quả, các phát hiện chính, chỉ số rủi ro thiên lệch. Đối với 50 bài báo được bao gồm, điều này mất 50–100 giờ.

Chúng tôi đã thử nghiệm trích xuất dữ liệu hỗ trợ AI bằng cách sử dụng công cụ tóm tắt AI được cấu hình cho trích xuất có cấu trúc. Chúng tôi đã cung cấp từng bài báo được bao gồm và yêu cầu các điểm dữ liệu cụ thể phù hợp với mẫu trích xuất của chúng tôi: thiết kế nghiên cứu, kích thước mẫu, nhân khẩu học người tham gia, mô tả can thiệp, biện pháp kết quả chính, phát hiện chính với kích thước hiệu ứng, và các hạn chế do tác giả báo cáo.

Kết quả rất đáng chú ý. Đối với dữ liệu được báo cáo rõ ràng — kích thước mẫu, thiết kế nghiên cứu, kết quả chính — AI đã trích xuất chính xác 92% thời gian. Đối với dữ liệu tinh vi — chính xác các nhóm con nào đã được phân tích, cách xử lý tỷ lệ rời bỏ, các phân tích độ nhạy nào đã được thực hiện — độ chính xác giảm xuống còn 71%.

Quy trình làm việc mà chúng tôi khuyên dùng: sử dụng AI cho lần trích xuất ban đầu, sau đó có một người đánh giá xác minh từng điểm dữ liệu đã trích xuất so với bài báo gốc. Bước xác minh này mất khoảng 10 phút cho mỗi bài báo so với 60–120 phút cho trích xuất thủ công toàn bộ. Tiết kiệm thời gian tổng thể: khoảng 70%.

Bước xác minh là không thể thương lượng. Một đánh giá hệ thống với dữ liệu trích xuất không chính xác còn tệ hơn là không có đánh giá nào cả.

Những gì AI không thể làm trong các đánh giá hệ thống (chưa)

Chúng tôi muốn nói thẳng về những hạn chế vì việc hứa hẹn quá mức là một vấn đề thực sự trong lĩnh vực này.

Đánh giá chất lượng cần có sự phán đoán. Đánh giá rủi ro thiên lệch — sử dụng các công cụ như Cochrane RoB 2 hoặc Thang điểm Newcastle-Ottawa — cần đánh giá xem thiết kế và báo cáo của một nghiên cứu có đầy đủ hay không. AI có thể đánh dấu các mối quan tâm tiềm ẩn ("không đề cập đến việc mù" hoặc "tỷ lệ rời bỏ trên 20%"), nhưng phán đoán cuối cùng về việc liệu những vấn đề này có cấu thành một rủi ro thiên lệch nghiêm trọng hay không cần có chuyên môn phương pháp mà AI hiện tại không có.

Tổng hợp là điều cơ bản của con người. Quyết định xem các nghiên cứu có đủ tương đồng để kết hợp trong một phân tích tổng hợp, chọn giữa các mô hình hiệu ứng cố định và hiệu ứng ngẫu nhiên, diễn giải độ không đồng nhất — những quyết định này cần có chuyên môn thống kê và kiến thức lĩnh vực. AI có thể tổ chức dữ liệu của bạn. Nó không thể đưa ra những quyết định này.

Phát triển giao thức cần có chuyên môn của bạn. Định nghĩa câu hỏi nghiên cứu, chọn cơ sở dữ liệu, phát triển chiến lược tìm kiếm, đặt tiêu chí bao gồm — nền tảng của một đánh giá hệ thống được xây dựng trên kiến thức của bạn về lĩnh vực. Không có công cụ AI nào có thể cho bạn biết câu hỏi nào là đáng hỏi.

Báo cáo PRISMA vẫn cần sự chú ý của bạn. Sơ đồ luồng PRISMA, báo cáo chi tiết về quy trình tìm kiếm và sàng lọc của bạn — những điều này cần có tài liệu chính xác về những gì thực sự đã xảy ra trong quá trình đánh giá của bạn, bao gồm cách bạn đã sử dụng các công cụ AI. Sự minh bạch về các bước hỗ trợ AI ngày càng được mong đợi.

Speed Up Your Systematic Review

Use structured AI summarization for data extraction. Upload papers and get standardized extraction outputs aligned with your protocol.

Try It Free

Các công cụ đánh giá hệ thống tốt nhất vào năm 2026

Dưới đây là những gì chúng tôi thấy hoạt động, dựa trên thử nghiệm và cuộc trò chuyện với các nhóm đánh giá tại sáu tổ chức nghiên cứu.

Đối với sàng lọc: Rayyan và ASReview vẫn là những công cụ sàng lọc chuyên dụng mạnh mẽ nhất. Cả hai đều hỗ trợ sàng lọc bán tự động với học tập chủ động. ASReview là mã nguồn mở và có hỗ trợ mạnh mẽ cho báo cáo tuân thủ PRISMA của quy trình sàng lọc hỗ trợ AI. Rayyan cung cấp giao diện tinh tế hơn và các tính năng hợp tác tốt hơn cho các nhóm nhiều người đánh giá.

Đối với trích xuất dữ liệu: Đây là nơi các công cụ AI đa năng — bao gồm công cụ tóm tắt của chúng tôi — thực sự vượt trội hơn các công cụ đánh giá hệ thống chuyên dụng. Lý do là tính linh hoạt. Các công cụ chuyên dụng khóa bạn vào các trường trích xuất đã được xác định trước. Một công cụ tóm tắt AI tốt cho phép bạn chỉ định chính xác các điểm dữ liệu cần trích xuất, phù hợp với mẫu trích xuất tùy chỉnh của bạn. Chúng tôi thấy điều này đặc biệt có giá trị cho các đánh giá liên ngành nơi các mẫu trích xuất tiêu chuẩn không phù hợp.

Đối với quản lý tài liệu tham khảo và loại bỏ trùng lặp: Covidence xử lý toàn bộ quy trình từ sàng lọc đến trích xuất và tích hợp với các trình quản lý tài liệu tham khảo lớn. Nó đắt đỏ cho các nhà nghiên cứu cá nhân nhưng đáng giá cho các nhóm thực hiện nhiều đánh giá.

Đối với dịch thuật: Nếu đánh giá của bạn bao gồm các bài báo không phải tiếng Anh — ngày càng phổ biến khi các đánh giá hệ thống mở rộng ra ngoài văn học nói tiếng Anh — các công cụ dịch thuật AI có thể giúp bạn sàng lọc và trích xuất từ các bài báo bằng các ngôn ngữ khác. Chúng tôi đã thử nghiệm điều này với 40 bài báo bằng tiếng Đức, tiếng Tây Ban Nha và tiếng Quan Thoại, và chất lượng dịch là đủ để sàng lọc và trích xuất chính xác trong cả ba ngôn ngữ.

Đối với giai đoạn viết: Sau khi trích xuất và tổng hợp dữ liệu, bạn vẫn cần viết đánh giá. Đối với quy trình tóm tắt đánh giá tài liệu mà cung cấp cho văn bản của bạn, chúng tôi đã chi tiết quy trình làm việc riêng biệt.

Các công cụ đánh giá hệ thống vào năm 2026 thực sự tốt hơn những gì có sẵn ngay cả hai năm trước. Nhưng — và điều này quan trọng — không có công cụ nào trong số đó là giải pháp hoàn chỉnh. Tất cả chúng đều cần thời gian thiết lập, dữ liệu đào tạo và giám sát của con người. Hãy lập ngân sách cho điều đó khi lập kế hoạch thời gian đánh giá của bạn.

Một thời gian thực tế với sự hỗ trợ của AI

Dựa trên thử nghiệm của chúng tôi, đây là những gì một thời gian đánh giá hệ thống trông như thế nào với các công cụ AI được tích hợp vào các giai đoạn phù hợp.

Phát triển giao thức: 2–4 tuần. Không có lối tắt AI ở đây.

Thực hiện tìm kiếm: 1–2 ngày. Các cơ sở dữ liệu không thay đổi nhiều.

Sàng lọc (hỗ trợ AI): 1–2 tuần thay vì 4–8 tuần. AI thực hiện lần sàng lọc đầu tiên. Bạn xác minh các trường hợp biên giới và giải quyết các bất đồng.

Đánh giá toàn văn: 2–3 tuần. Vẫn là thủ công. AI có thể giúp bạn xác định các phần cụ thể trong các bài báo, nhưng quyết định bao gồm cần có sự phán đoán của con người.

Trích xuất dữ liệu (hỗ trợ AI): 2–3 tuần thay vì 6–10 tuần. AI thực hiện trích xuất ban đầu. Bạn xác minh so với các bài báo gốc.

Đánh giá chất lượng: 2–3 tuần. Vẫn chủ yếu là thủ công.

Tổng hợp và viết: 4–8 tuần. Chuyên môn của bạn điều khiển giai đoạn này.

Tổng cộng: 3–6 tháng thay vì 8–18 tháng. Đó là một sự khác biệt có ý nghĩa cho các nhà nghiên cứu quản lý nhiều dự án và thời gian sự nghiệp.

AI Summarizer for Research Extraction

Structured data extraction from academic papers. Customizable extraction fields for systematic review protocols.

Đọc thêm

Câu hỏi thường gặp

Q: Các công cụ AI có thể được sử dụng trong các đánh giá tài liệu hệ thống không?

Có — và ngày càng nhiều, chúng đang được sử dụng. Một cuộc khảo sát năm 2025 trong Tạp chí Dịch tễ học Lâm sàng cho thấy 34% các đánh giá hệ thống đã công bố báo cáo sử dụng ít nhất một công cụ hỗ trợ AI, tăng từ 8% vào năm 2023. Chìa khóa là sự minh bạch: báo cáo những công cụ bạn đã sử dụng, ở giai đoạn nào, và cách bạn xác minh các đầu ra của AI. Các hướng dẫn PRISMA 2020 không cấm sự hỗ trợ của AI, và phần mở rộng PRISMA-AI sắp tới sẽ cung cấp hướng dẫn báo cáo cụ thể cho các đánh giá hỗ trợ AI.

Q: Các hướng dẫn PRISMA có cho phép sàng lọc hỗ trợ AI không?

Các hướng dẫn PRISMA 2020 hiện tại không đề cập cụ thể đến sàng lọc hỗ trợ AI, nhưng chúng yêu cầu báo cáo minh bạch về quy trình sàng lọc. Nếu bạn đã sử dụng AI cho sàng lọc ban đầu, hãy báo cáo: mô tả công cụ, dữ liệu đào tạo đã sử dụng, ngưỡng độ nhạy bạn đã đặt, và quy trình xác minh của con người cho các trường hợp không chắc chắn. Cộng đồng đánh giá hệ thống đang tiến tới hướng dẫn rõ ràng — nhóm làm việc PRISMA-AI đã phát triển các tiêu chuẩn báo cáo từ năm 2024 — nhưng trong thời gian này, sự minh bạch là sự bảo vệ của bạn.

Q: Công cụ AI nào là tốt nhất cho các đánh giá hệ thống?

Không có công cụ tốt nhất duy nhất vì các đánh giá hệ thống liên quan đến nhiều nhiệm vụ khác nhau. Đối với sàng lọc, ASReview (mã nguồn mở) và Rayyan cung cấp sàng lọc hỗ trợ AI tốt nhất dựa trên bằng chứng. Đối với trích xuất dữ liệu, các công cụ tóm tắt AI đa năng với khả năng trích xuất có cấu trúc — như của chúng tôi — cung cấp tính linh hoạt hơn so với các công cụ chuyên dụng. Đối với toàn bộ quy trình, Covidence cung cấp trải nghiệm tích hợp nhất. Chúng tôi khuyên bạn nên kết hợp các công cụ dựa trên nhu cầu cụ thể của đánh giá của bạn thay vì ép một nền tảng xử lý mọi thứ.

EmaPhD in Computational Linguistics

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.