Künstliche Intelligenz liest Gehirnscans und rekonstruiert gesehene Bilder

Die Welt der Künstlichen Intelligenz (KI) hat einen weiteren bedeutenden Fortschritt gemacht: Ein neues System kann Bilder, die eine Person gesehen hat, basierend auf ihren Gehirnaktivitäten rekonstruieren.

Die Welt der Künstlichen Intelligenz (KI) hat einen weiteren bedeutenden Fortschritt gemacht: Ein neues System kann Bilder, die eine Person gesehen hat, basierend auf ihren Gehirnaktivitäten rekonstruieren. Diese bemerkenswerte Entwicklung könnte nicht nur unser Verständnis darüber, wie das menschliche Gehirn visuelle Informationen verarbeitet, revolutionieren, sondern auch zahlreiche praktische Anwendungen finden – von der Erforschung der Wahrnehmung verschiedener Tierarten bis hin zur Unterstützung von Menschen mit Lähmungen.

Hintergrund und Methodik

In der Studie, die auf einer kommenden Konferenz für Computer Vision vorgestellt werden soll, wurde erstmals ein KI-Algorithmus namens Stable Diffusion verwendet, der von einer deutschen Gruppe entwickelt und 2022 veröffentlicht wurde. Im Gegensatz zu früheren Bemühungen, bei denen KI-Algorithmen auf große Datensätze angewiesen waren, um Gehirnscans zu dekodieren, konnte Stable Diffusion mit weniger Trainingsdaten effizientere Ergebnisse erzielen.

Für diese Studie fügte ein japanisches Forscherteam dem Standard-Stable-Diffusion-System zusätzliche Trainingsdaten hinzu. Diese Daten bestanden aus Textbeschreibungen von Tausenden von Fotos, die mit den Gehirnmustern verknüpft wurden, die bei den Teilnehmern in Gehirnscan-Studien beobachtet wurden. Diese Methode, die sowohl textuelle als auch visuelle Informationen integriert, um das Gehirn zu entschlüsseln, stellt einen neuartigen Ansatz dar und könnte die Tür zu vielfältigen Anwendungen öffnen.

Technische Details und Funktionsweise

Das Herzstück dieser Technologie liegt in der funktionellen Magnetresonanztomographie (fMRI), die Veränderungen im Blutfluss zu aktiven Regionen des Gehirns erfasst. Bei der Betrachtung eines Fotos registrieren die Temporallappen hauptsächlich Informationen über den Inhalt des Bildes (Menschen, Objekte oder Landschaften), während die Okzipitallappen Informationen über Layout und Perspektive (Größe und Position der Inhalte) verarbeiten. Diese Aktivitätsmuster werden von der fMRI erfasst und können mittels KI in eine nachgebildete Version des gesehenen Bildes umgewandelt werden.

Die Forscher nutzten ein Online-Datensatz der University of Minnesota, der Gehirnscans von vier Teilnehmern enthielt, die jeweils eine Reihe von 10.000 Fotos betrachteten. Ein Teil dieser Scans wurde für das Training des KI-Systems verwendet, der Rest für die spätere Überprüfung der Ergebnisse.

Der Generierungsprozess beginnt mit einem Bild, das zunächst wie TV-Statik aussieht. Der Stable-Diffusion-Algorithmus ersetzt dann dieses Rauschen schrittweise mit erkennbaren Merkmalen, indem es die Gehirnaktivitätsmuster einer Person mit den Mustern im Trainingsdatensatz vergleicht. Das System erzeugt ein Bild, das den Inhalt, das Layout und die Perspektive des betrachteten Motivs wiedergibt. Dieser Ansatz war effizienter und benötigte weniger Feinabstimmung als frühere Systeme.

Herausforderungen und Lösungen

Eine der Herausforderungen bestand darin, dass die fMRI-Daten nicht ausreichten, um komplexe Objekte wie einen Uhrenturm genau zu rekonstruieren. Stattdessen wurden oft abstrakte Figuren erzeugt. Um dieses Problem zu umgehen, verwendeten die Forscher Schlüsselwörter aus Bildunterschriften der Fotos im Minnesota-fMRI-Datensatz. Diese Schlüsselwörter wurden in das Text-zu-Bild-Generierungsmodell von Stable Diffusion eingespeist, um realistischere Darstellungen zu erzeugen.

Wichtig ist, dass der Stable-Diffusion-Algorithmus keine Textvorgaben direkt aus den Testdaten erhält. Er kann nur dann ein Objekt rekonstruieren, wenn das Gehirnmuster mit einem im Trainingsdatensatz übereinstimmt. Dies beschränkt die rekonstruierten Objekte auf diejenigen, die in den Trainingsfotos vorhanden waren.

Anwendungen und Zukunftsaussichten

In abschließenden Tests mit zusätzlichen Gehirnscans derselben Teilnehmer, die verschiedene neue Fotos betrachteten (z.B. ein Spielzeugbär, ein Flugzeug, eine Uhr und ein Zug), konnte das KI-System überzeugende Nachbildungen der neuen Fotos erzeugen. Die Genauigkeit dieser Methode wurde von externen Experten gelobt, obwohl sie derzeit nur für die ursprünglichen vier Teilnehmer funktioniert. Eine Erweiterung auf andere Personen würde eine erneute Schulung des Systems mit deren Gehirnscans erfordern.

Die möglichen Anwendungen dieser Technologie sind vielfältig. Sie könnte eines Tages genutzt werden, um imaginierte Gedanken und Träume abzufangen oder zu verstehen, wie verschiedene Tiere die Realität wahrnehmen. Shinji Nishimoto, ein weiterer Forscher an der Osaka Universität, hofft, dass diese Technologie mit weiteren Verfeinerungen dazu beitragen könnte, die Kommunikation bei Menschen mit Lähmungen zu verbessern oder neue Erkenntnisse in der kognitiven Neurowissenschaft zu ermöglichen.

KI-Kategorien im Einsatz

Die folgenden KI-Kategorien wurden in dieser Studie höchstwahrscheinlich eingesetzt:

  1. Generative KI: Insbesondere das Stable-Diffusion-Algorithmus, das aus textuellen und visuellen Eingaben neue Bilder generiert.
  2. Bildverarbeitung: Techniken zur Analyse und Verarbeitung visueller Daten aus Gehirnscans.
  3. Maschinelles Lernen: Modelle, die auf der Grundlage von Trainingsdaten lernen, um Vorhersagen und Rekonstruktionen durchzuführen.
  4. Neuroinformatik: Kombination von Neurowissenschaften und Informatik zur Analyse von Gehirnaktivitäten und deren Umwandlung in visuelle Darstellungen.

Fazit

Die Fähigkeit der Künstlichen Intelligenz, Gehirnscans zu lesen und Bilder, die eine Person gesehen hat, zu rekonstruieren, stellt einen bedeutenden Fortschritt dar. Diese Technologie hat das Potenzial, unser Verständnis des Gehirns zu vertiefen und eine Vielzahl von Anwendungen zu finden, die von der medizinischen Forschung bis hin zur Verbesserung der Lebensqualität von Menschen mit Behinderungen reichen. Mit weiteren Entwicklungen und einer breiteren Anwendung könnte diese Innovation die Art und Weise, wie wir das Gehirn und die visuelle Wahrnehmung verstehen, grundlegend verändern.