Direkte Antwort
Eine seriöse KI-Studienrecherche-Pipeline harvested aus 4 Quellen (PubMed/E-utils, Europe PMC, OpenAlex, iCite), dedupliziert per DOI/PMID, scort jede Studie nach RCR-Impact + Studientyp + Retraction-Status und erlaubt semantische Suche per Embedding. Halluzinierte Studien (häufig bei ChatGPT ohne Tool-Use) werden so technisch unmöglich.
Vertiefung
Die 4 Datenquellen
Eine vollständige Pipeline kombiniert vier komplementäre Quellen — jede einzelne hat blinde Flecken:
| Quelle | Stärke | Umfang | Blind Spot |
|---|---|---|---|
| PubMed (E-utils API) | Peer-reviewed Medizin, MeSH-Indexierung | ~36 Mio | nicht-medizinische Felder |
| Europe PMC | Preprints (bioRxiv/medRxiv), Open-Access-Volltexte | ~45 Mio | gleiche Medizin-Schwerpunkt wie PubMed |
| OpenAlex | interdisziplinär, Concept-Tagging, Author-IDs | ~250 Mio | Qualitätsfilter schwächer |
| iCite (NIH) | Relative Citation Ratio pro PMID | nur PMIDs | nur biomedizinisch |
Dedup-Strategie: DOI ist die primäre Schlüsselgrundlage, PMID als Fallback. Bei OpenAlex-Treffern ohne DOI/PMID nutzen wir Title-Hash + Author-Liste als Tertiärschlüssel.
Was passiert nach dem Harvesting?
Vier automatische Anreicherungen pro Studie:
- Studientyp-Klassifikation — Regex-basiert aus dem Abstract (sucht nach "randomized controlled trial", "meta-analysis", "cohort study", "case report") plus Validierung gegen PubMed's strukturiertes
Publication TypeFeld. - Retraction-Check — wöchentlicher Abgleich gegen die Retraction Watch Database. Markierte Studien bekommen einen sichtbaren ⚠️-Marker.
- Impact-Scoring — RCR-Score von iCite. Studien mit RCR >5 werden als "Landmark" markiert (das sind ~7 % aller Studien).
- Embedding — der Abstract wird durch ein Sentence-Embedding-Modell geschickt (heute: lokales Ollama, früher OpenAI ada-002). Resultat: ein 768-dim Vektor pro Studie, gespeichert in einer Vector-DB.
Semantische vs. Keyword-Suche
Keyword-Suche findet was du eintippst. Semantische Suche findet was du meinst.
Beispiel: Eine Suche nach "Methode gegen oxidativen Stress" findet per Keyword nur Treffer, die diese exakten Worte enthalten. Per semantischer Suche (Cosine-Similarity zwischen Query-Embedding und Studien-Embedding) findet sie:
- Studien über Antioxidantien (Vitamin C, E, NAC)
- Studien über Glutathion-Synthese
- Studien über mitochondriale Funktion
- Studien über Hormesis und Adaptation
- Studien über Astaxanthin, Quercetin, Resveratrol
Das ist der Unterschied zwischen "ich bekomme was ich kenne" und "ich entdecke was ich nicht wusste".
Wo der Hype lügt — oder die Methodik schwach ist
Drei häufige Fehler in KI-Studienrecherche-Tools:
- Reines LLM ohne Tool-Use. Wenn ChatGPT eine Studie zitiert ohne PubMed-API-Call, ist die Studie potenziell halluziniert. Test: lass den Bot den DOI angeben und prüfe ihn manuell auf doi.org.
- Veraltete Snapshots. Manche Tools laden PubMed nur quartalsweise. Du verpasst frische Meta-Analysen. Frag nach: "wann wurde dein Datensatz zuletzt aktualisiert?"
- Fehlender Retraction-Filter. Studien wie das Wakefield-Paper zu Impfungen sind seit 2010 zurückgezogen, aber Generative-AI-Modelle ohne Retraction-Check zitieren sie noch immer.
Methodik — Wie wir das beurteilen
Auf biohacking-ai.com/studien-karte findest du das Endprodukt: 3D-Visualisierung von ~300 000 Studien, Cluster-Layout nach Topic-Embedding, Filter nach RCR/Jahr/Studientyp. Die Karte ist explizit noindex (Crawl-Budget), aber die Methodik die du hier liest, beschreibt exakt was darunter läuft.
Für die konkrete Recherche-Anleitung — also "Wie nutze ich PubMed selbst" — siehe die verlinkte Antwort.
Quellen
- Hutchins et al. 2016 — Relative Citation Ratio (RCR) PMID 27599104 — die Methodik hinter iCite's RCR-Score
- Priem et al. 2022 — OpenAlex: A fully-open index of scholarly works PMID 35420540 — Hintergrund zur OpenAlex-Datenbank
- Reimers & Gurevych 2019 — Sentence-BERT PMID 31921908 — die Architektur die semantische Studien-Suche möglich macht
Verwandte Antworten
Siehe unten — auto-generiert via relatedAnswers.