Der KI Kompass für Studierende

Ein KI-Buch- und Blog-Projekt von Dr. Stephan Pflaum

Kompass

Über das Projekt

Über den Autor

mySocioloVerse

Impressum / Datenschutz

Qualität eines Promptergebnisses checken

Symbolbild

Wie prüfe ich systematisch, ob ein KI-Antworttext für eine wissenschaftliche Arbeit taugt? In diesem Beitrag zeige ich einen prüfbaren Minimal- bis Maximal-Pfad – von der 10-Minuten-Checkliste bis zur strengen Prüfung für Haus- und Abschlussarbeiten. Der Leitgedanke: Ich als Forschende*r bzw. Schreibende*r bleibe verantwortlich – KI liefert Vorschläge, ich sichere Qualität.

Hinführung

Große Sprachmodelle (LLMs) können brillant formulieren – und gleichzeitig plausibel Falsches erzeugen (sogenannte Halluzinationen). Das ist kein Ausnahmefehler, sondern systembedingt; darum brauchen wir klare Prüfprozesse und saubere Dokumentation (Ji et al., verlinkt unten). Die folgenden Schritte verbinden Informationskompetenz (CRAAP-Kriterien), wissenschaftsethische Leitlinien (DFG-Kodex) und praxisnahe LLM-Checks aus der aktuellen Forschung. (arXiv)

Minimalpfad (10-Minuten-Check)

  • Aufgaben-Fit: Erfüllt die Antwort genau meinen Auftrag (Scope, Zielgruppe, Abgabeformat)? Kurz mit 1–2 Sätzen paraphrasieren.
  • Fakten-Stichprobe (3×): Drei zentrale Behauptungen/Nennwerte herausgreifen und in Primärquellen oder Standardwerken gegenprüfen.
  • Quellenblick mit CRAAP: Currency, Relevance, Authority, Accuracy, Purpose – reicht die Qualität der herangezogenen oder vorgeschlagenen Quellen? (Meriam Library, CSU Chico). (library.csuchico.edu)
  • Kohärenz & Lücken: Gibt es Widersprüche, Zirkelschlüsse oder „Sprünge“? Markieren.
  • Transparenz-Notiz (3 Zeilen): Modell/Version, Datum, Prompt(s) und eigene Prüfungen festhalten – ich bleibe rechenschaftspflichtig (DFG-Kodex; ICMJE/COPE zu Verantwortung & Disclosure). (Deutsche Forschungsgemeinschaft)

Der strenge Prüfpfad (für Haus-/Abschlussarbeiten)

1) Aufgabenklärung & Evaluationskriterien festlegen

  • Wissenschaftlicher Zweck (Erklären? Vergleichen? Entwerfen?) und Bewertungskriterien (z. B. Richtigkeit, Vollständigkeit, Beleglage, Nachvollziehbarkeit) vorab definieren – ideal schriftlich in der Methodenrubrik.

2) Reproduzierbarkeit & Protokollierung

  • Dokumentiere: Modellname/Version, Temperatur/Seeds (falls wählbar), Datum/Uhrzeit (Zeitstempel), vollständige Prompts, Zahl der Iterationen, Auswahlkriterien. Das folgt Grundsätzen guter wissenschaftlicher Praxis (DFG-Kodex) und gängigen Publikationsrichtlinien (ICMJE/COPE). (Deutsche Forschungsgemeinschaft)

3) Faktenprüfung in zwei Wellen

  • Welle A: Quellen-Attribution. Verlangt von der KI exakte Belege (Autor, Jahr, Titel, DOI/URL) und prüfe jede zitierte Quelle auf Existenz und Inhalt (Problem: LLMs erfinden Literatur und Links).
  • Welle B: Primär-/Sekundärabgleich. Zentrale Aussagen im Original querchecken (Artikel, Monografien, Datenbanken). Nutze die CRAAP-Kriterien als Raster. (library.csuchico.edu)

4) Konsistenz- und Logik-Checks

  • Selbst-Widerlegung: Bitte das Modell um eine Version „gegen die These“ und vergleiche Argumente.
  • Stabilitätstest: Gleicher Prompt an anderem Tag/mit leicht veränderter Formulierung – ändert sich die Kernaussage? Große Abweichungen ⇒ Vorsicht.
  • Einheiten & Zahlen: Rechne Kennzahlen stichprobenartig per Hand/Tool nach (Einheiten, Prozentpunkte, N-Zahlen).
  • Wichtig zu wissen: LLMs sind Sprachmodelle, die mit Wahrscheinlichkeiten arbeiten. Es klingt paradox, aber genau deshalb kann KI nicht richtig rechnen. Um exakte Ergebnisse (schon bei Grundrechenarten) zu erzielen, geht KI den Umweg über zB Python Codes.

5) Bias-, Perspektiv- und Zweckprüfung

  • Welche Akteurs-/Regionen-/Sprach-Biases blenden die Antwort? Stimmen Begriffsverwendungen mit dem Fachgebrauch überein? Hier helfen NIST-Risikokategorien (z. B. Validität, Erklärbarkeit, Robustheit) als Denkrahmen. (NIST-Publikationen)

6) Halluzinations-Risiko mindern

  • Grounding/RAG: Füttere das Modell mit konkreten, kuratierten Textausschnitten und verlange Satz-genaue Belege (Zitat-Snippets).
  • Reflexions-/Verifier-Prompts: Lasse das Modell eigene Fehler suchen, Kernfakten listen und Beweise „line-by-line“ anführen; Studien zeigen, dass solche Selbstprüfungen Factuality verbessern können. (aclanthology.org)
  • Ungewissheit sichtbar machen: Bitte explizit um Alternativerklärungen.
  • Grenzen anerkennen: Absolute Fehlerfreiheit ist unrealistisch – selbst State-of-the-Art-Modelle halluzinieren (aktuelle Übersichten). (arXiv)

7) Ethik, Urheberrecht & Disclosure

  • Kein „Ghost-Authoring“: KI ist keine Autor*in; Verantwortung bleibt menschlich (COPE).
  • Transparenzpflicht: Nutzung von LLMs offenlegen (z. B. Methodenteil/Danksagung) – viele Journale/Verbände fordern das (ICMJE u. a.).
  • Datenschutz: Keine personenbezogenen/geschützten Daten in Prompts ohne Rechtsgrundlage. (publicationethics.org)

Praktische Checkliste (zum Abhaken)

  • Fit: Aufgabe/Frage exakt getroffen?
  • Belege: Alle Kernaussagen → echte Quellen? (DOI/Verlag geprüft)
  • CRAAP: Aktualität, Relevanz, Autorität, Genauigkeit, Zweck klar? (library.csuchico.edu)
  • Kohärenz: Widersprüche/Logiklücken markiert?
  • Zahlen: Stichprobenartig nachgerechnet?
  • Bias: Alternative Perspektiven einbezogen? Rahmen NIST hilfreich? (NIST-Publikationen)
  • Halluzinationen: Grounding/Reflexion genutzt? Unsicherheiten ausgewiesen? (aclanthology.org)
  • Dokumentation: Modell/Version/Datum/Prompts/Prüfschritte sauber protokolliert (DFG/ICMJE/COPE). (Deutsche Forschungsgemeinschaft)

Modellvorschlag (für diesen Workflow)

  • GPT-5 Thinking für strukturierte Qualitäts- und Methodenarbeit (Konzept, Kriterien, Reflexions-Prompts).
  • GPT-Pro für Presseschau/Faktencheck mit Web-Quellen.
  • GPT-Standard für Kurz-Edits/Formatierungen.

Forschungstagebuch

Heute habe ich denselben Prompt zweimal gestellt: vormittags und nachmittags. Die zweite Antwort setzte eine andere Definition von „Grounded Theory“ voraus – subtil, aber folgenreich. Erst der Beleg-Abgleich im Originaltext hat die Abweichung sichtbar gemacht. Meine Lehre: Ohne Quellen- und Stabilitätscheck bleibt der beste Stil ein Risiko. (Notiz: Modell/Version/Parameter/Zeitstempel im Protokoll ergänzt.) (library.csuchico.edu)

Leitfragen

  • Welche 3 Kernaussagen eies KI-Textes prüfe ich heute in Primärquellen?
  • Wie mache ich Unsicherheit sichtbar (Konfidenz, Alternativen, offene Punkte)?
  • Wo können Biases liegen – und welche Gegenperspektive teste ich? (NIST-Rahmen zur Orientierung) (NIST-Publikationen)
  • Ist meine Disclosure zur KI-Nutzung vollständig (Werkzeug, Version, Aufgabe, Prüfpfad)? (ICMJE/COPE) (icmje.org)

Literatur (APA)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert