Das fehlende Puzzleteil im Training von KI-Sprachmodellen: Ein Blick auf die Kritik von Andrej Karpathy

In der Welt der Künstlichen Intelligenz (KI) gibt es nur wenige Konzepte, die so kontrovers und gleichzeitig faszinierend sind wie das Reinforcement Learning from Human Feedback (RLHF).

In der Welt der Künstlichen Intelligenz (KI) gibt es nur wenige Konzepte, die so kontrovers und gleichzeitig faszinierend sind wie das Reinforcement Learning from Human Feedback (RLHF). Es wird als die „geheime Zutat“ hinter dem Erfolg von ChatGPT gefeiert, einem der bekanntesten und leistungsfähigsten Sprachmodelle, das von OpenAI entwickelt wurde. Andrej Karpathy, ein ehemaliger OpenAI-Forscher und renommierter KI-Experte, stellt jedoch in Frage, ob RLHF wirklich das Optimum im Training von Large Language Models (LLMs) darstellt. Er argumentiert, dass RLHF zwar einige bemerkenswerte Vorteile bietet, aber letztlich ein Flaschenhals und eine Notlösung ist, weil die traditionellen Methoden des Reinforcement Learnings (RL) für LLMs bisher nicht effektiv umgesetzt werden konnten.

RLHF und seine Rolle im KI-Training

RLHF ist ein Verfahren, das typischerweise nach dem Pretraining und dem überwachten Finetuning (Supervised Fine-Tuning, SFT) angewendet wird. Während das Pretraining ein Modell mit großen Datenmengen auf die Struktur und Syntax einer Sprache vorbereitet, verfeinert das SFT das Modell, indem es spezifischere Aufgaben wie das Beantworten von Fragen oder das Verfassen von Texten lernt. RLHF fügt diesem Prozess eine zusätzliche Ebene hinzu: Es integriert menschliches Feedback, um das Modell zu „verstehen“, welche Arten von Antworten am besten bei menschlichen Nutzern ankommen.

Das bedeutet, dass menschliche Bewerter verschiedene Antworten des Modells bewerten und ihre Präferenzen als Feedback geben. Dieses Feedback wird dann genutzt, um ein Belohnungsmodell (Reward Model, RM) zu trainieren, das dem Modell hilft, Antworten zu generieren, die den Präferenzen der Menschen entsprechen. Dieser Ansatz hat zweifellos dazu beigetragen, dass Sprachmodelle wie ChatGPT intuitiver, folgsamer und natürlicher in ihren Antworten erscheinen.

Karpathys Kritik an RLHF

Andrej Karpathy sieht jedoch RLHF nicht als ideale Lösung an. Er argumentiert, dass RLHF in der Praxis oft wie ein „Vibe-Check“ funktioniert – das Belohnungsmodell bewertet Antworten basierend darauf, wie gut sie menschlichen Bewertern gefallen, anstatt auf einer objektiven Leistung. Dies führt laut Karpathy zu mehreren Problemen.

Ein zentrales Problem ist, dass das Belohnungsmodell kein tatsächliches Ziel verfolgt, Probleme korrekt zu lösen, sondern lediglich versucht, Antworten zu erzeugen, die Menschen als angenehm empfinden. Diese Vorgehensweise kann jedoch irreführend sein, da das Modell möglicherweise lernt, Antworten zu generieren, die gut „klingen“, aber inhaltlich ungenau oder ineffizient sind. In geschlossenen, stark strukturierten Umgebungen wie dem Go-Spiel, wo klare Erfolgskriterien definiert werden können, funktioniert traditionelles Reinforcement Learning hervorragend. Ein Beispiel hierfür ist DeepMinds AlphaGo, das mit „echtem“ RL trainiert wurde und schließlich die besten menschlichen Go-Spieler übertraf.

AlphaGo konnte durch die Simulation vollständiger Spielzüge („Rollouts“) lernen, welche Entscheidungen zu einem Sieg führten, und so seine Strategie optimieren. Dies ist eine Form des Reinforcement Learnings, bei der das Modell durch Versuch und Irrtum sowie durch die Maximierung einer klar definierten Belohnungsfunktion lernt.

Für LLMs in offenen, dynamischen Anwendungsbereichen wie der Sprachverarbeitung ist dies jedoch weitaus schwieriger. Karpathy weist darauf hin, dass es nahezu unmöglich ist, eine objektive Belohnung für komplexe Aufgaben wie das Schreiben eines Witzes, das Zusammenfassen eines Artikels oder das Umschreiben von Code in eine andere Programmiersprache zu definieren. Die subjektive Natur dieser Aufgaben macht es schwer, klare Erfolgskriterien zu setzen, und führt dazu, dass RLHF möglicherweise nur ein „Notnagel“ ist, um den Mangel an besser geeigneten Methoden zu überbrücken.

KI-Kategorien im Kontext der Kritik

Um Karpathys Kritik besser zu verstehen, ist es hilfreich, die verschiedenen Kategorien von KI-Technologien zu betrachten, die in diesem Kontext eine Rolle spielen:

  1. Supervised Learning (SL): Diese Kategorie umfasst das überwachte Lernen, bei dem Modelle auf vorab gekennzeichneten Daten trainiert werden. Es ist die Grundlage für das Pretraining und das Fine-Tuning von LLMs, bei dem das Modell lernt, Muster in den Daten zu erkennen und Aufgaben wie Textgenerierung oder Übersetzung auszuführen.
  2. Reinforcement Learning (RL): Dies ist ein Ansatz, bei dem ein Modell durch Interaktion mit einer Umgebung und durch Versuch und Irrtum lernt. Die Belohnungen, die das Modell für seine Aktionen erhält, helfen ihm, seine Strategie kontinuierlich zu verbessern. RL ist besonders effektiv in strukturierten Umgebungen, in denen klare Zielsetzungen definiert werden können, wie bei AlphaGo.
  3. Reinforcement Learning from Human Feedback (RLHF): RLHF kombiniert Elemente des Reinforcement Learnings mit menschlichem Feedback, um ein Belohnungsmodell zu trainieren. Dieses Belohnungsmodell dient als Proxy für die tatsächliche Zielerreichung, indem es versucht, menschliche Präferenzen in die Trainingsphase des Modells zu integrieren.
  4. Unsupervised Learning (UL): Hierbei handelt es sich um Lernprozesse, bei denen das Modell ohne explizite Beschriftungen oder Anweisungen aus den Daten lernt. Diese Methode wird oft verwendet, um versteckte Muster oder Strukturen in den Daten zu entdecken, die für das Pretraining von LLMs entscheidend sind.
  5. Generative Modelle: Diese Modelle sind darauf ausgelegt, neue Daten zu generieren, die statistisch den Trainingsdaten ähneln. Sie sind der Kern von LLMs wie GPT und können Texte, Bilder oder andere Datentypen erzeugen.

Fazit: Die Zukunft des KI-Trainings

Zusammenfassend lässt sich sagen, dass Andrej Karpathys Kritik an RLHF eine wichtige Diskussion über die Grenzen und Herausforderungen bei der Entwicklung von KI-Sprachmodellen aufwirft. Während RLHF in bestimmten Kontexten nützlich ist, zeigt Karpathy auf, dass es noch erheblicher Verbesserungen bedarf, um KI-Systeme zu entwickeln, die wirklich in der Lage sind, menschliche Problemlösungen zu übertreffen. Traditionelles Reinforcement Learning könnte in Zukunft eine größere Rolle spielen, wenn es gelingt, die schwierigen Probleme der Belohnungsdefinition in offenen Anwendungsbereichen zu lösen.

In einfacher Sprache bedeutet dies, dass RLHF derzeit zwar hilft, KI-Modelle zu verbessern, aber nicht perfekt ist. Es optimiert Modelle auf eine Weise, die menschliche Vorlieben nachahmt, aber nicht unbedingt die besten Lösungen liefert. Um KI-Modelle noch leistungsfähiger zu machen, könnten in Zukunft andere Methoden erforderlich sein, die es den Modellen ermöglichen, klarere und objektivere Ziele zu verfolgen.