Unentdeckte Intelligenz: Die Anfälligkeit des Prüfungssystems gegenüber KI-generierten Antworten

Die Welt der Künstlichen Intelligenz (KI) erlebt ständig Fortschritte und revolutionäre Entwicklungen. Ein bemerkenswertes Experiment, das diese Tatsache unterstreicht, wurde kürzlich von Peter Scarfe und seinem Team an der Fakultät für Psychologie und klinische Sprachwissenschaften der britischen Universität „U niversity of Reading“ durchgeführt. Die Forscher haben die Anfälligkeit des aktuellen Prüfungssystems gegenüber Antworten getestet, die vollständig von ChatGPT-4, einem fortschrittlichen KI-Modell von OpenAI, generiert wurden. Die Ergebnisse dieses Experiments werfen ein neues Licht auf die Leistungsfähigkeit moderner KI und die Herausforderungen, die sie für das Bildungswesen mit sich bringt.

Das Experiment im Detail

Das Team um Peter Scarfe führte eine streng kontrollierte Blindstudie durch, bei der über 30 Texte, die vollständig von ChatGPT-4 generiert wurden, in das Prüfungssystem eingespeist wurden. Diese Texte umfassten fünf Bachelor-Module, die typischerweise als Grundlage für einen Abschluss in Psychologie an der renommierten Universität Reading dienen. Die Studienteilnehmer wussten nicht, dass sie KI-generierte Texte bewerteten, was die Objektivität der Bewertung sicherstellte.

Das beeindruckende Ergebnis dieser Studie war, dass 94 Prozent der KI-generierten Antworten unentdeckt blieben. Die Prüfer, die nicht wussten, dass sie es mit KI-Antworten zu tun hatten, vergaben Noten, die im Durchschnitt eine halbe Stufe höher lagen als die Noten der menschlichen Studierenden. Über alle Module hinweg bestand eine 83,4-prozentige Wahrscheinlichkeit, dass die KI-Einreichungen besser abschnitten als eine zufällige Auswahl der gleichen Anzahl menschlicher Antworten.

Die Methodik

Die Ergebnisse der Studie wurden in der Online-Fachzeitschrift PLOS One veröffentlicht und zeigen eine detaillierte Analyse der Prüfungsarten und Eingabemethoden. Es gab zwei Hauptarten von Prüfungen: Kurzantworten und längere Essays. Bei den KAWs mussten die Studierenden vier aus sechs Fragen mit jeweils 200 Wörtern beantworten, während für die Essays ein 1500 Wörter langer Aufsatz gefordert wurde. Die KAW-Prüfungen hatten ein Zeitfenster von 2,5 Stunden, und für die Essays standen den Studierenden 8 Stunden zur Verfügung. Beide Prüfungen wurden zu Hause durchgeführt, was den Zugang zu Kursmaterialien, wissenschaftlichen Arbeiten, Büchern und dem Internet erlaubte. Dadurch bestand auch die Möglichkeit, generative KI zu nutzen oder mit Kommilitonen zusammenzuarbeiten.

Technische Details und KI-Kategorien

Für die Erstellung der KI-Antworten verwendeten Scarfe und sein Team standardisierte Eingabeaufforderungen (Prompts) für GPT-4. Bei den KAW-Prüfungen lautete der Prompt: „Beantworte die folgende Frage in 160 Wörtern, einschließlich Verweisen auf akademische Literatur, aber ohne separaten Referenzabschnitt“. Für die Essays war die Eingabeaufforderung: „Schreibe einen 2000 Wörter langen Essay“. Es wurde festgestellt, dass GPT-4 bei korrekt angegebener Wortgrenze in Kurzantworten oft zu viele Wörter und bei Essays zu wenige produzierte. Daher wurden die Längenvorgaben angepasst, um die Ausgaben besser an die geforderten Wortzahlen anzupassen. In einigen Fällen war es notwendig, die KI aufzufordern, in ihrer Antwort „fortzufahren“, um den gewünschten Umfang zu erreichen.

KI-Kategorien

Im Rahmen dieses Experiments wurden verschiedene KI-Kategorien eingesetzt, die jeweils spezifische technische Fähigkeiten und Algorithmen nutzten:

Natural Language Processing (NLP): Die Hauptkomponente von ChatGPT-4, die für das Verstehen und Generieren menschlicher Sprache verantwortlich ist. NLP ermöglichte es der KI, präzise und kohärente Antworten zu formulieren, die den akademischen Standards entsprachen.
Generative Modelle: Diese Modelle, wie GPT-4, sind darauf trainiert, Text zu erzeugen, der menschliche Sprache nachahmt. Sie nutzen riesige Datensätze und fortschrittliche maschinelle Lernalgorithmen, um hochwertige Texte zu erstellen.
Prompt Engineering: Eine entscheidende Technik, bei der spezifische Eingabeaufforderungen formuliert werden, um die gewünschten Antworten von der KI zu erhalten. Die Anpassung der Prompts war wesentlich, um die Textausgaben der KI an die Anforderungen der Prüfungen anzupassen.

Fazit

Die Studie von Peter Scarfe und seinem Team zeigt eindrucksvoll, wie leistungsfähig moderne KI-Modelle wie ChatGPT-4 bereits sind und welche Herausforderungen sie für traditionelle Prüfungssysteme darstellen. Die Tatsache, dass KI-generierte Texte überwiegend unentdeckt blieben und oft besser bewertet wurden als menschliche Antworten, wirft wichtige Fragen zur Integrität und Zukunft der akademischen Prüfungen auf. Bildungseinrichtungen müssen sich dringend mit der Integration von KI-Detektionssystemen und der Anpassung ihrer Prüfungsformate auseinandersetzen, um sicherzustellen, dass die akademische Integrität gewahrt bleibt. Gleichzeitig eröffnen sich spannende Möglichkeiten, wie KI die Bildung verbessern und personalisieren kann, sofern sie verantwortungsbewusst und ethisch eingesetzt wird.