Folgen Sie Subraum Transmissionen auch gerne auf Social Media:
OpenAI’s Herausforderung bei der Interpretierbarkeit seiner KI-Modelle
Sam Altman, CEO von OpenAI, gab während des International Telecommunication Union AI for Good Global Summit in Genf zu, dass das Unternehmen immer noch Schwierigkeiten hat, die Funktionsweise seiner großen Sprachmodelle (LLMs) vollständig zu verstehen. Trotz Milliardeninvestitionen bleibt die Interpretierbarkeit ein ungelöstes Problem. Altman erklärte, dass OpenAI noch nicht in der Lage ist, die oft bizarren und ungenauen Ausgaben ihrer KI-Modelle nachzuvollziehen und die Entscheidungsprozesse zu erklären.
Nicholas Thompson, CEO von The Atlantic, stellte die Frage, ob dies nicht ein Argument dafür sei, keine neuen, mächtigeren Modelle zu veröffentlichen. Altman antwortete mit der halbherzigen Versicherung, dass die KIs „allgemein als sicher und robust gelten“.
Die Schwierigkeit, die Ausgabe von KIs auf das ursprüngliche Trainingsmaterial zurückzuführen, bleibt ein großes Problem. Ein Bericht von 75 Experten im Auftrag der britischen Regierung stellte fest, dass KI-Entwickler „wenig darüber wissen, wie ihre Systeme funktionieren“ und dass das wissenschaftliche Wissen „sehr begrenzt“ ist.
Andere KI-Unternehmen wie Anthropic versuchen, die „Black Box“ zu öffnen, indem sie die künstlichen Neuronen ihrer Algorithmen kartieren. Anthropic gab zu, dass die Forschung zur Interpretierbarkeit noch in den Kinderschuhen steckt und dass die aktuellen Techniken teuer und unvollständig sind.
Die Interpretierbarkeit von KI ist besonders wichtig angesichts der Debatte über die Sicherheit von KI und die Risiken einer potenziell gefährlichen künstlichen allgemeinen Intelligenz (AGI). Altman selbst hat kürzlich das „Superalignment“-Team von OpenAI aufgelöst, das sich mit der Steuerung und Kontrolle von KI-Systemen beschäftigte, die viel intelligenter sind als Menschen, nur um sich selbst zum Leiter eines neuen „Sicherheits- und Schutzkomitees“ zu ernennen.
Trotz dieser Herausforderungen versichert Altman den Investoren weiterhin, dass OpenAI sich der Sicherheit und dem Schutz verschrieben hat. Er betonte, dass ein besseres Verständnis der Modelle dazu beitragen kann, Sicherheitsansprüche zu überprüfen und zu gewährleisten.
Technische Details zur Interpretierbarkeit von KI-Modellen
- Interpretierbarkeit: Dies bezieht sich auf die Fähigkeit, zu erklären oder zu verstehen, wie eine KI zu ihren Entscheidungen oder Vorhersagen kommt. Bei großen Sprachmodellen (LLMs) ist dies besonders schwierig, da sie komplexe, nichtlineare Modelle verwenden.
- Modellexplikation (Modellerklärung): Techniken zur Erklärung der Modelle können Forschern und Entwicklern helfen zu verstehen, wie allgemeine KI-Systeme funktionieren. Diese Forschung ist jedoch noch in einem frühen Stadium.
- Neuronen-Kartierung: Einige Unternehmen, wie Anthropic, arbeiten daran, die künstlichen Neuronen ihrer Algorithmen zu kartieren, um besser zu verstehen, wie die Modelle funktionieren. Dies umfasst die Identifizierung der Merkmale und Konzepte, die das Modell während des Trainings gelernt hat.
- Sicherheitsrelevante Merkmale: Das Ziel ist es, sicherheitsrelevante Merkmale zu identifizieren und zu nutzen, um die Sicherheit der Modelle zu verbessern. Dies erfordert das Verständnis der Repräsentationen und der Schaltkreise, in denen diese Merkmale involviert sind.
- Herausforderungen: Die aktuelle Technik, um alle Merkmale zu identifizieren, ist kostenintensiv und unvollständig. Das Verständnis, wie die Modelle die gelernten Repräsentationen verwenden, ist ebenfalls eine große Herausforderung.
Die fortlaufende Forschung und Verbesserung der Interpretierbarkeit ist entscheidend, um die Sicherheit und Zuverlässigkeit von KI-Modellen zu gewährleisten, insbesondere angesichts der potenziellen Risiken durch superintelligente KI-Systeme.
Quelle: OBSERVER