How to Use AI for a PRISMA-Compliant Systematic Review
A practical guide to using AI in systematic reviews without breaking PRISMA compliance. Where AI legitimately helps (screening, extraction), where it shouldn't, the reporting requirements, and a step-by-step workflow.
Für eine systematische Überprüfung benötigte ein Team aus drei Forschern früher sechs bis neun Monate. Der Engpass war nicht das Lesen, sondern das Screening. Zwölftausend Abstracts stammen aus PubMed, Embase, Scopus und Cochrane und erfordern jeweils zwei unabhängige Gutachter, die anhand vorab registrierter Kriterien über Einschluss oder Ausschluss entscheiden müssen. Die Zeit, in der Mathematik die Karrieren um sie herum vorangetrieben hat.
KI hat diese Mathematik verändert. Moderne Sprachmodelle können Zusammenfassungen in Sekundenschnelle überprüfen, Studienmerkmale in Minutenschnelle aus Volltext-PDFs extrahieren und Hunderte von Aufsätzen in Stunden zusammenfassen. Bei sorgfältiger Anwendung verkürzt KI die Screening-Phase einer Bewertung von Monaten auf Wochen. Bei unvorsichtiger Verwendung entsteht ein nicht reproduzierbares, nicht konformes Dokument, das die Peer-Review nicht besteht.
In diesem Leitfaden erfahren Sie, wo KI bei einer PRISMA-konformen Überprüfung legitim hilft, wo sie die Arbeit nicht erledigen sollte, welche Berichtsanforderungen mit der Verwendung von KI einhergehen und einen Schritt-für-Schritt-Workflow, der PRISMA 2020 und die PRISMA-trAIce-Erweiterung erfüllt.
Was PRISMA tatsächlich benötigt (kurze Auffrischung)
PRISMA 2020 ist die Standard-Checkliste für die Berichterstattung für systematische Überprüfungen. Es bestimmt, wie Sie beschreiben, was Sie getan haben, nicht wie Sie es tun. Die relevanten Teile für den KI-Einsatz sind:
Suchstrategieberichte. Dokumentieren Sie jede durchsuchte Datenbank, jede verwendete Suchzeichenfolge und jedes Datum, an dem die Suchen durchgeführt wurden. Reproduzierbarkeit ist der Standard – ein anderer Forscher sollte in der Lage sein, Ihre Suche erneut durchzuführen und die gleichen Ergebnisse zu erhalten.
Screening-Berichte. Dokumentieren Sie, wie viele Datensätze von wie vielen unabhängigen Prüfern überprüft wurden, wie Meinungsverschiedenheiten gelöst wurden und wie viele in jeder Phase ausgeschlossen wurden. Hier lebt das klassische PRISMA-Flussdiagramm.
Datenextraktionsberichte. Dokumentieren Sie, welche Daten von wem extrahiert wurden und wie Meinungsverschiedenheiten gelöst wurden.
Bewertung des Risikos einer Verzerrung. Dokumentieren Sie das verwendete Tool (Cochrane RoB 2, ROBINS-I usw.) und wer es durchgeführt hat.
Meldung etwaiger Abweichungen. Alles, was nicht dem vorab registrierten Protokoll entsprach, muss mit Begründung gemeldet werden.
Die Erweiterung PRISMA-trAIce (veröffentlicht 2024, aktualisiert 2025) fügt KI-spezifische Berichtsanforderungen zusätzlich zu PRISMA 2020 hinzu. Die Kurzversion: Überall dort, wo KI in der Überprüfung verwendet wurde, geben Sie das Tool, die Version, die Eingabeaufforderungen und die Art und Weise an, wie die menschliche Überprüfung durchgeführt wurde.
Where AI legitimately helps
Hierbei handelt es sich um Anwendungen, bei denen KI die Arbeit beschleunigt, ohne den Inhalt der Bewertung zu verändern.
Duplikaterkennung. Datensätze aus mehreren Datenbanken werden häufig dupliziert. Herkömmliche Referenzmanager (Zotero, EndNote, Covidence) leisten dies gut. KI ist hier übertrieben – verwenden Sie weiterhin die Standardtools.
Anfangstitel- und Abstract-Screening. KI kann jeden Abstract anhand Ihrer Einschlusskriterien bewerten und einordnen oder vorklassifizieren. Zwei menschliche Prüfer müssen immer noch die endgültige Einschluss-/Ausschlussentscheidung treffen, aber die KI-Vorklassifizierung verkürzt die menschliche Zeit erheblich. Dies ist in den meisten Rezensionen der KI-Einsatz mit dem höchsten Wert.
Abruf und Triage von Volltexten. KI kann Publikationsmetadaten extrahieren, feststellen, ob ein Volltext mit den Ansprüchen der Zusammenfassung übereinstimmt (gelegentlich nicht), und Papiere kennzeichnen, die wie Konferenzzusammenfassungen, Errata oder doppelte Veröffentlichungen unter verschiedenen Titeln erscheinen.
Datenextraktion aus strukturierten Papieren. Tabellen mit Patientenmerkmalen, Dosierungen und Effektstärken – KI kann diese aus Volltext-PDFs in ein strukturiertes Datenextraktionsblatt extrahieren, das dann von zwei menschlichen Prüfern überprüft wird. Die Überprüfungszeit ist viel kürzer als bei einer vollständigen manuellen Extraktion.
Synthese- und Schreibunterstützung. Verfassen der Beschreibung des Screening-Verfahrens im Methodenabschnitt, Verfassen des PRISMA-Flussdiagrammtextes, Zusammenfassen der Tabelle „Merkmale der eingeschlossenen Studien“ – KI hilft beim Schreiben, ohne den Inhalt der Rezension zu ändern.
Übersetzung nicht-englischer Quellen. Wenn Ihre Rezension nicht-englischsprachige Artikel enthält, ist die KI-Übersetzung zuverlässig genug geworden, um die Einbeziehung dieser Quellen zu unterstützen. Dokumentieren Sie das in Methoden verwendete Werkzeug.
Where AI should NOT do the work
Diese Verwendungen überschreiten die Grenze zur inhaltlichen Entscheidungsfindung, die menschliche Gutachter treffen müssen.
Endgültige Einschluss-/Ausschlussentscheidungen. PRISMA erfordert zwei unabhängige menschliche Prüfer für den Einschluss/Ausschluss. KI kann Kandidaten vorab klassifizieren, einordnen und aufdecken – die verbindliche Entscheidung muss jedoch vom Menschen getroffen werden. Dies ist aus Compliance-Gründen nicht verhandelbar.
Bewertung des Risikos einer Verzerrung. RoB-Tools erfordern eine Beurteilung des Studiendesigns, der Verblindung, der Fluktuation und der Berichterstattung. KI kann zusammenfassen, was das Papier zu jedem Bereich sagt, aber die Bias-Bewertung selbst muss menschlich sein.
Qualitätsbewertung und Evidenzgrad (GRADE). Gleiche Logik. KI fasst zusammen; Menschen bewerten.
Interpretation der Heterogenität. Ob Unterschiede zwischen Studienergebnissen klinische Heterogenität, methodische Heterogenität oder Zufall widerspiegeln, ist eine Ermessensentscheidung, die klinisches und methodisches Fachwissen erfordert.
Abschließende Synthese und Schlussfolgerungen. Die narrative Synthese, die Diskussion der Stärken und Grenzen, die klinischen Implikationen – das sind die Beiträge des Review-Teams. KI kann eine Ausgangssprache entwerfen, aber die inhaltlichen Urteile liegen bei Ihnen.
Erkennung von gefälschten oder papierfabrikenen Inhalten. Ironischerweise ist die KI-Erkennung von gefälschten Studien nach wie vor unzuverlässig. Menschliche Augen auf verdächtige Papiere sowie Tools wie der Problematic Paper Screener sind der aktuelle Standard.
The reporting requirements
Wenn Sie an irgendeiner Stelle in der Rezension KI verwenden, verlangt PRISMA-trAIce, dass Sie dies melden. Die Struktur, die den meisten Zeitschriften genügt:
Im Abschnitt „Methoden“, Unterabschnitt „Screening-Verfahren“:
„Text Das Abstract-Screening erfolgte in einem zweistufigen Verfahren. Anfänglich Die Klassifizierung wurde mit [Toolname, Version, Zugriff über.] durchgeführt API/Web zu Terminen] mit der folgenden Eingabeaufforderungsvorlage: „[genaue Eingabeaufforderung]“. Die Klassifizierung wurde verwendet, um Abstracts für die menschliche Begutachtung zu priorisieren. Anschließend wurden alle Abstracts unabhängig von der ursprünglichen Klassifizierung gesichtet unabhängig von zwei Gutachtern ([Autoreninitialen]) unter Verwendung von [Covidence / Rayyan / anderes Werkzeug], wobei Meinungsverschiedenheiten durch Diskussion oder durch gelöst werden ein dritter Gutachter ([Autoreninitialen]), wenn kein Konsens erzielt wurde.
In einer Kalibrierungsübung, die an [Anzahl] Abstracts vor dem durchgeführt wurde Beim Hauptscreening stimmte die KI-Klassifizierung mit dem menschlichen Konsens überein Entscheidung in [Prozent]% der Fälle. KI wurde für das Finale nicht verwendet Einschluss- oder Ausschlussentscheidungen. „
Im Abschnitt „Methoden“, Unterabschnitt „Datenextraktion“:
Data extraction was performed using a structured form (Appendix [X]).
Extraction of [specific data types, e.g., patient characteristics,
intervention details, outcome measurements] was supported by [Tool
Name, version], which extracted candidate values from full-text PDFs.
All extracted values were verified against the source PDFs by two
reviewers ([author initials]). Discrepancies between AI-extracted
values and source documents were corrected against the source in
[percentage]% of cases. The verified data informed the final
synthesis.
In einem speziellen Unterabschnitt „Einsatz von KI“ (manchmal separat erforderlich):
The following AI tools were used in this review: [list each tool,
version, date range, and specific role]. No AI tool was used for
risk of bias assessment, quality grading, interpretation of
heterogeneity, or synthesis of conclusions. All AI-supported steps
were verified by [number] human reviewers as described above. The
prompts used are provided in Appendix [Y].
In the limitations section:
Erkennen Sie Einschränkungen im Zusammenhang mit KI an: potenzielle systematische Verzerrungen bei der Vorklassifizierung, Abhängigkeit von KI-Tools, deren interne Funktionsweise nicht transparent ist, und die Unmöglichkeit, das KI-Verhalten in allen Modellversionen vollständig zu reproduzieren.
Summarize and Extract — with Verifiable Outputs
Paste a paper or paste an extraction request. Get back content you can verify against the source — fast.
Try the AI SummarizerThe workflow we recommend
Eine Sequenz, die PRISMA-trAIce erfüllt und die Stärken der KI nutzt.
Schritt 1: Registrieren Sie das Protokoll vorab. Registrieren Sie vor jeder KI-Nutzung die Bewertung (PROSPERO für medizinische Bewertungen; OSF für andere). Das Protokoll spezifiziert Einschlusskriterien, Suchstrategie, Screening-Methode, Extraktionsplan und Syntheseansatz. Geben Sie im Protokoll an, wo und wie KI eingesetzt wird. Eine Vorregistrierung, bei der KI erwähnt wird, ist viel wirkungsvoller als eine nachträgliche Offenlegung.
Schritt 2: Führen Sie die Kalibrierungsübung durch. Wählen Sie 100–200 Abstracts aus Ihrer Suche aus. Lassen Sie sie von zwei menschlichen Gutachtern unabhängig prüfen. Führen Sie das KI-Screening am selben Gerät wie Ihre geplante Eingabeaufforderung durch. Berechnen Sie Übereinstimmungsmetriken (Cohens Kappa, prozentuale Übereinstimmung). Wenn die KI-Übereinstimmung mit der menschlichen Konsensentscheidung unter 0,7 Kappa oder 80 % liegt, verfeinern Sie die Eingabeaufforderung oder überdenken Sie den Einsatz von KI.
Schritt 3: Führen Sie den Haupt-KI-Screening-Durchgang aus. Überprüfen Sie mit einer kalibrierten Eingabeaufforderung den gesamten abstrakten Korpus. Ausgabe: eine Rang- oder Klassifizierungsliste. Menschliche Prüfer sehen dieses Ranking, treffen aber ihre eigenen, unabhängigen Entscheidungen.
Schritt 4: Unabhängiges Screening durch zwei Gutachter. Jeder Abstract erhält weiterhin zwei menschliche Gutachter. Bei der KI-Klassifizierung handelt es sich um Metadaten, nicht um eine Abstimmung. Meinungsverschiedenheiten werden durch Diskussion oder einen dritten Gutachter gelöst.
Schritt 5: Volltext-Screening mit KI-Unterstützung. KI kann offensichtliche Ausschlüsse bereits im Volltextstadium markieren (falsche Sprache, nur Abstract, zurückgezogene Beiträge). Der Mensch trifft endgültige Entscheidungen.
Schritt 6: Datenextraktion mit KI-Unterstützung und -Verifizierung. KI extrahiert Kandidatenwerte; Zwei menschliche Gutachter überprüfen die Quelle anhand der Quelle. Das Verifizierungsprotokoll selbst wird zum Nachweis der Konformität.
Schritt 7: Risiko einer Voreingenommenheit – nur menschlich. Keine KI in diesem Schritt.
Schritt 8: Synthese – von Menschen geleitetes, KI-gestütztes Schreiben. Menschen interpretieren. KI hilft beim Zusammenfassen von Studien für die Tabelle der eingeschlossenen Studien, beim Verfassen des Methodenteils und beim Verfeinern der Prosa. Inhaltliche Interpretation bleibt menschlich.
Schritt 9: Umfassende Offenlegung. Der Abschnitt „Methoden“ berichtet über die KI-Nutzung wie oben beschrieben. Eine vollständige Offenlegungserklärung zur KI-Nutzung erscheint im Vorwort oder in den Danksagungen. Die vollständigen verwendeten Eingabeaufforderungen finden Sie im Anhang.
Schritt 10: Prüfung vor der Veröffentlichung. Vor der Einreichung prüft ein zweites Teammitglied die KI-gestützten Schritte auf Vollständigkeit der Dokumentation. Fehlende Eingabeaufforderungen, fehlende Versionsnummern oder fehlende Verifizierungsprozentsätze sind die häufigsten Auslöser für eine Ablehnung.
Common pitfalls
Halluzinierte Studienmerkmale. KI extrahiert manchmal Daten, die nicht im Quellpapier enthalten sind – nicht vorhandene Konfidenzintervalle, nicht übereinstimmende Stichprobengrößen, aus dem Kontext fabrizierte Interventionsdetails. Die Überprüfung anhand der Quelle ist die einzige Verteidigung. Wenn Ihr Team nicht jeden extrahierten Wert überprüft, werden Sie Fehler veröffentlichen.
Prompte Abweichung während der Bewertung. Eine verfeinerte Eingabeaufforderung mitten in der Überprüfung ändert das Verhalten der KI bei bereits überprüften Elementen. Wenn Sie die Eingabeaufforderung ändern, dokumentieren Sie den Grund und überprüfen Sie die betroffenen Elemente erneut.
Übermäßiges Vertrauen in die KI-Klassifizierung. Einige Teams haben Inklusionsentscheidungen effektiv an die KI delegiert, indem sie deren Klassifizierung als maßgeblich betrachteten. PRISMA erfordert menschliche Entscheidungen. Die KI-Eingabe ist in Ordnung; KI-Entscheidungen sind es nicht.
Vergessen, Abweichungen zu dokumentieren. Alles, was vom vorab registrierten Protokoll abweicht, muss gemeldet werden. Wenn sich die KI-Nutzung während der Überprüfung weiterentwickelt hat, dokumentieren Sie die Entwicklung. Verborgene Prozessänderungen werden bei der Peer-Review gekennzeichnet.
Inkonsistente Toolversionen. Aktualisierung der KI-Modelle. Die DeepSeek V3, die im Januar Abstracts zeigte, ist nicht identisch mit der im Juni verfügbaren Version. Dokumentieren Sie die Version und den Datumsbereich jedes verwendeten KI-Tools.
Übersetzungsgenauigkeit vorausgesetzt, nicht überprüft. KI-Übersetzung ist gut, aber nicht perfekt, insbesondere für klinische oder technische Inhalte. Wenn nicht-englische Quellen enthalten sind, dokumentieren Sie, wer die Übersetzungen überprüft hat.
Summarize papers, extract study characteristics, and draft synthesis text. Free tier includes every feature.
Frequently asked questions
F: Kann ich KI-überprüfte Zusammenfassungen in mein PRISMA-Flussdiagramm einbinden?
Ja, aber mit konkreter Quellenangabe. Das Standardflussdiagramm PRISMA 2020 enthält Felder für identifizierte Datensätze, überprüfte Datensätze, auf Eignung geprüfte Datensätze und eingeschlossene Datensätze. Wenn beim Screening KI verwendet wurde, fügen Sie dem Diagramm oder seiner Überschrift einen Hinweis hinzu: „Zur Einstufung der Abstracts wurde zunächst eine KI-gestützte Klassifizierung verwendet. Alle Abstracts wurden von zwei Gutachtern unabhängig von Menschen überprüft.“ Einige Zeitschriften fordern mittlerweile ein detaillierteres Flussdiagramm, das die KI-gestützten und rein menschlichen Schritte aufschlüsselt. Die Erweiterung PRISMA-trAIce stellt hierfür Vorlagen bereit.
F: Wie zitiere ich KI-Tools, die in meiner systematischen Überprüfung verwendet werden?
Geben Sie das Modell mit seiner Version und dem Zugriffsdatum an. Standardformat: „[Modellname], Version [X.Y], Zugriff auf [Datumsbereich] über [API-Endpunkt/Webschnittstelle] (Entwickler: [Unternehmen]). URL: [Link zur Dokumentation, falls verfügbar].“ Einige Zeitschriften erfordern eine detailliertere Zitierung einschließlich der genauen verwendeten API-Parameter. Überprüfen Sie die Anweisungen der Zeitschrift für Autoren. Die Zitierkonventionen für KI-Tools entwickeln sich immer noch weiter – geben Sie im Zweifelsfall lieber mehr Details als weniger an.
F: Was ist der Unterschied zwischen PRISMA 2020 und PRISMA-trAIce?
PRISMA 2020 ist die Standard-Checkliste für das Berichten systematischer Reviews und wurde von der Version aus dem Jahr 2009 aktualisiert. PRISMA-trAIce (veröffentlicht 2024) ist eine Erweiterung, die zusätzliche Berichtspflichten für KI-gestützte Schritte im Review-Prozess ergänzt. Die meisten Fachzeitschriften verlangen inzwischen beides: PRISMA 2020 für das allgemeine Berichten und PRISMA-trAIce für alle KI-gestützten Schritte. Die trAIce-Checkliste umfasst 12 Punkte zu Dokumentation von Tools, Prompt-Berichtswesen, Kalibrierungsmetriken sowie Verfahren zur menschlichen Verifikation. Wenn Sie in einem systematischen Review irgendwo KI einsetzen, gehen Sie in Ihrem Methodenteil auf PRISMA-trAIce ein. Für einen umfassenderen Workflow-Leitfaden, der diese Checkliste ergänzt, siehe Using AI to Speed Up Your Literature Review.
F: Wird der Einsatz von KI in meiner systematischen Überprüfung meine Chancen auf eine Zulassung verringern?
Unserer Erfahrung nach verringert der offengelegte und ordnungsgemäß dokumentierte KI-Einsatz die Akzeptanzraten nicht und beschleunigt häufig die Überprüfung (die Methoden sind klarer und vertretbarer). Was die Akzeptanz verringert, ist die nicht offengelegte KI-Nutzung, die KI-Nutzung, die das erforderliche menschliche Urteilsvermögen ersetzt, oder KI-bezogene Einschränkungen, die nicht anerkannt werden. Das Signal, auf das Redakteure und Gutachter reagieren, ist Strenge und Transparenz, nicht der Verzicht auf KI. Eine systematische Überprüfung, die KI für das Screening verwendet, die Verwendung detailliert berichtet, Kalibrierungsmetriken enthält und die Einschränkungen anerkennt, wird als methodisch moderne Überprüfung behandelt – nicht als kompromittierte.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.