Künstliche Intelligenz und das Ende der verfügbaren Trainingsdaten

Laut einer neuen Studie der Forschungsgruppe Epoch AI laufen Technologieunternehmen Gefahr, bis etwa 2026 bis 2032 den Vorrat an öffentlich verfügbaren Trainingsdaten für KI-Sprachmodelle aufzubrauchen. Diese Entwicklung stellt eine bedeutende Herausforderung für die zukünftige Entwicklung von KI-Systemen dar.

Bisher haben KI-Systeme wie ChatGPT von den Unmengen an Texten profitiert, die Menschen online geteilt haben. Diese Daten sind jedoch endlich. Ein Vergleich mit einem „Goldrausch“, der begrenzte natürliche Ressourcen erschöpft, verdeutlicht das Ausmaß des Problems. Sobald die öffentlichen Daten aufgebraucht sind, müssen Entwickler entscheiden, welche Alternativen sie nutzen wollen. Eine Möglichkeit besteht darin, private Daten wie E-Mails oder Textnachrichten zu verwenden, eine andere darin, auf „synthetische Daten“ zurückzugreifen, die von anderen KI-Modellen generiert werden.

Neben dem Training immer größerer Modelle wird auch der Aufbau spezialisierterer Modelle, die für spezifische Aufgaben optimiert sind, als Lösungsansatz betrachtet.

Der zunehmende Bedarf an hochwertigen Trainingsdaten hat bereits dazu geführt, dass Unternehmen wie OpenAI und Google erhebliche Anstrengungen unternehmen, um hochwertige Datenquellen zu sichern, oft durch den Kauf von Daten aus Foren wie Reddit und Nachrichtenportalen. Langfristig wird jedoch die Menge an neuen Blogs, Nachrichtenartikeln und sozialen Medienkommentaren nicht ausreichen, um die aktuelle Entwicklung von KI voranzutreiben. Dadurch entsteht Druck auf die Unternehmen, sensible Daten oder weniger zuverlässige synthetische Daten zu nutzen.

Laut der Studie von Epoch AI ist das Wachstum der Textdatenmenge, die in KI-Sprachmodelle eingespeist wird, in den letzten Jahren etwa 2,5-mal pro Jahr gestiegen, während die Rechenleistung etwa 4-mal pro Jahr zugenommen hat. Meta Platforms, das Mutterunternehmen von Facebook, behauptet beispielsweise, dass die größte Version ihres kommenden Llama 3-Modells mit bis zu 15 Billionen Token trainiert wurde.

Einige Experten, wie Nicolas Papernot, ein Assistenzprofessor für Computertechnik an der Universität Toronto, weisen jedoch darauf hin, dass das Training auf KI-generierten Daten zu einem Leistungsverfall führen kann, einem Phänomen, das als „Model Collapse“ bekannt ist. Zudem besteht die Gefahr, dass durch das Training auf bereits von KI produzierten Inhalten bestehende Fehler und Verzerrungen verstärkt werden.

Insgesamt steht die KI-Industrie vor einer schwierigen Herausforderung: die Balance zwischen der Nutzung vorhandener menschlicher Daten und der Schaffung neuer, qualitativ hochwertiger Trainingsdaten zu finden. Die Ergebnisse der Epoch-Studie unterstreichen die Notwendigkeit, kreative und nachhaltige Lösungen zu entwickeln, um die zukünftige Leistungsfähigkeit von KI-Modellen sicherzustellen.

Werden die Daten also ausgehen?

Das Skalieren von KI-Modellen war ein zentraler Faktor für den Fortschritt im Bereich der künstlichen Intelligenz. Modelle werden immer größer und mit zunehmend umfangreicheren Datensätzen trainiert, was zu einem exponentiellen Wachstum der Rechenleistung und erheblichen Leistungssteigerungen führt. Ein Beispiel hierfür ist die Entwicklung von GPT-2 zu GPT-4 innerhalb von fünf Jahren und mit einer vier Größenordnungen höheren Rechenleistung.

Bislang hatten KI-Entwickler keine größeren Probleme beim Skalieren, abgesehen von der Beschaffung von KI-Chips, die zwar knapp, aber zunehmend verfügbar sind. Wenn Chips der einzige Engpass wären, würden KI-Systeme weiterhin exponentiell in ihrer Rechenleistung wachsen und ihre Fähigkeiten erweitern. Doch eine zentrale Frage ist, ob andere Faktoren als reine Rechenleistung zu einschränkenden Faktoren werden könnten.

Insbesondere das Wachstum der Trainingsdatensätze ist entscheidend. Die leistungsstärksten KI-Systeme sind Sprachmodelle, die hauptsächlich auf Billionen von Wörtern menschlich generierter Texte aus dem Internet trainiert werden. Da die Menge an menschlich generierten Daten begrenzt ist, stellt sich die Frage, ob Trainingsdaten der Hauptengpass für das weitere Skalieren werden könnten.

Ergebnisse

Aktuelle Schätzungen gehen davon aus, dass der Gesamtbestand an qualitativ hochwertigen, öffentlich zugänglichen Textdaten etwa 300 Billionen Tokens umfasst, mit einem 90%-Konfidenzintervall von 100 bis 1000 Billionen. Diese Schätzung berücksichtigt nur Daten, die qualitativ hochwertig genug sind, um für das Training verwendet zu werden, und die Möglichkeit, Modelle über mehrere Epochen zu trainieren.

Basierend auf dieser Schätzung wurde prognostiziert, wann diese Daten vollständig genutzt sein werden. Zwei Modelle zur Wachstumsprognose wurden entwickelt: Eines extrapoliert den historischen Wachstumsrate von Datensätzen, das andere berücksichtigt das erwartete Wachstum der Rechenleistung und leitet die entsprechende Datensatzgröße ab. Die Gesamtprojektion zeigt, dass der Datenbestand zwischen 2026 und 2032 vollständig genutzt sein wird.

Wenn Modelle rechenoptimal trainiert werden, reicht der Datenbestand aus, um ein Modell mit 5e28 Gleitkommaoperationen (FLOP) zu trainieren, was für das Jahr 2028 erwartet wird. Allerdings werden neuere Modelle wie Llama 3 oft „übertrainiert“ mit weniger Parametern und mehr Daten, um während der Inferenz rechen effizienter zu sein.

Ein vereinfachtes Modell für Einnahmen und Kosten zeigt, dass es je nach Nachfrage nach KI-Inferenz sinnvoll sein könnte, Modelle bis zu 100x zu übertrainieren. Projektionen zeigen, dass bei einem moderaten Übertraining von 5x der Datenbestand bis 2027 vollständig genutzt sein wird, bei einem Übertraining von 100x bereits bis 2025.

Vergleich mit früheren Schätzungen

Eine Studie aus dem Jahr 2022 prognostizierte, dass qualitativ hochwertige Textdaten bis 2024 vollständig genutzt sein würden. Neue Erkenntnisse und eine geänderte Methodik verschieben diesen Zeitpunkt jedoch auf 2028. Vorherige Modelle schätzten qualitativ hochwertige Daten als eine Mischung aus Web-Daten und kuratierten Korpora ein. Neuere Erkenntnisse zeigen jedoch, dass sorgfältig gefilterte Web-Daten kuratierte Korpora übertreffen können, was zu einer Erhöhung der Schätzung des Datenbestands führte.

Eine weitere wichtige Erkenntnis ist, dass Modelle über mehrere Epochen ohne signifikante Leistungseinbußen trainiert werden können, was den effektiven Datenbestand weiter erhöht hat.

Diskussion

Es gibt viele Datentypen jenseits von öffentlich zugänglichen menschlich generierten Textdaten, einschließlich Bildern, Videos, privaten Daten wie Instant Messaging und von KI generierten synthetischen Daten. Der Fokus liegt jedoch auf öffentlichen menschlichen Textdaten, da Text das Hauptmedium für das Training von Modellen ist und eher zu einem Engpass wird. KI-generierte synthetische Daten und private Daten sind entweder rechtlich problematisch oder fragmentiert über verschiedene Plattformen verteilt.

Selbst wenn Modelle auf alle verfügbaren öffentlichen Textdaten trainiert werden, bedeutet dies nicht unbedingt ein Ende des Fortschritts. Eine Möglichkeit, Fortschritte zu erzielen, besteht darin, Modelle in Bezug auf Parameter zu vergrößern, während die Datensatzgröße konstant bleibt, eine Strategie, die als „Untertraining“ bezeichnet wird. Diese Strategie kann zu einer weiteren Skalierung der Rechenleistung um bis zu zwei Größenordnungen führen.

Letztendlich werden neue Innovationen erforderlich sein, um den Fortschritt über 2030 hinaus aufrechtzuerhalten. Drei relevante Kategorien sind synthetische Daten, das Lernen aus anderen Datenmodalitäten und Verbesserungen der Dateneffizienz. Mit zunehmender Knappheit an Daten im Vergleich zur Rechenleistung wird die Investition in diese Techniken erheblich zunehmen.

Quelle: Epoch AI