Sie sind hier: Startseite » IT Security » Security-Tipps, -Hintergründe und -Wissen

Retrieval Augmented Generation (RAG)

Die Kehrseite innovativer KI-Technologien: Sicherheitsrisiken bei RAG
Recherche: Sicherheitsprobleme wie Fehler bei der Datenvalidierung und Denial-of-Service-Angriffe sind bei allen RAG-Komponenten weit verbreitet

Wussten Sie, dass Deutschland auf Rang 3 der Länder mit den meisten exponierten RAG-Systemen steht, gleich hinter den USA und China? Seit der Einführung von ChatGPT 2022 wollen immer mehr Unternehmen KI-Technologien nutzen – oft mit spezifischen Anforderungen, die über Standardlösungen hinausgehen. Retrieval Augmented Generation (RAG) ist dabei die bevorzugte Technologie, um innovative Anwendungen auf Basis privater Daten zu entwickeln. Doch Sicherheitsrisiken wie ungeschützte Vektorspeicher, fehlerhafte Datenvalidierung und Denial-of-Service-Angriffe stellen eine ernsthafte Gefahr dar, insbesondere angesichts des schnellen Entwicklungszyklus von RAG-Systemen. Ein aktueller Blog-Artikel von Trend Micro identifiziert und analysiert diese Schwachstellen.

Zusammenfassung
>> Retrieval Augmented Generation (RAG) ermöglicht es Unternehmen, maßgeschneiderte, effiziente und kostengünstige Anwendungen auf der Grundlage privater Daten zu erstellen. Untersuchungen zeigen jedoch erhebliche Sicherheitsrisiken auf, wie z. B. ungeschützte Vektorspeicher und LLM-Hosting-Plattformen, die zu Datenlecks, unbefugtem Zugriff und potenzieller Systemmanipulation führen können, wenn sie nicht ordnungsgemäß gesichert sind.

>> Sicherheitsprobleme wie Fehler bei der Datenvalidierung und Denial-of-Service-Angriffe sind bei allen RAG-Komponenten weit verbreitet. Dies wird durch ihren schnellen Entwicklungszyklus noch verstärkt und erschwert die Verfolgung und Behebung von Schwachstellen.

>> Unsere Forschung identifizierte 80 exponierte llama.cpp-Server, von denen 57 keine Authentifizierung forderten. Die exponierten Server konzentrierten sich auf die Vereinigten Staaten, gefolgt von China, Deutschland und Frankreich.

>> Über die Authentifizierung hinaus müssen Unternehmen TLS-Verschlüsselung implementieren und Zero-Trust-Netzwerke aufsetzen, um sicherzustellen, dass generative KI-Systeme und ihre Komponenten vor unbefugtem Zugriff und Manipulation geschützt sind.

RAG benötigt einige Zutaten, um zu funktionieren: Eine Datenbank mit Textbausteinen und eine Möglichkeit, diese abzurufen sind erforderlich. Üblicherweise wird dafür ein Vektorspeicher eingesetzt, der den Text und eine Reihe von Zahlen speichert, die dabei helfen, die relevantesten Textbausteine zu finden. Mit diesen und einem entsprechenden Prompt lassen sich Fragen beantworten oder neue Texte verfassen, die auf privaten Datenquellen basieren und für die jeweiligen Bedürfnisse relevant sind. Tatsächlich ist RAG so effektiv, dass meist nicht die leistungsstärksten LLM benötigt werden. Um Kosten zu sparen und die Reaktionszeit zu verbessern, lassen sich die vorhandenen eigenen Server verwenden, um diese kleineren und leichteren LLM-Modelle zu hosten.

Der Vektorspeicher gleicht einem sehr hilfreichen Bibliothekar, der nicht nur relevante Bücher findet, sondern auch die entsprechenden Passagen hervorhebt. Das LLM ist dann der Forscher, der diese Textstellen nimmt und sie dafür nutzt, um ein Whitepaper zu schreiben oder die Frage zu beantworten. Zusammen bilden sie eine RAG-Anwendung.

Vektorspeicher, LLM-Hosting, Schwachstellen
Vektorspeicher sind nicht ganz neu, erleben aber seit zwei Jahren eine Renaissance. Es gibt viele gehostete Lösungen wie Pinecone, aber auch selbst gehostete Lösungen wie ChromaDB oder Weaviate (https://weaviate.io). Sie unterstützen einen Entwickler dabei, Textbausteine zu finden, die dem eingegebenen Text ähneln, wie z. B. eine Frage, die beantwortet werden muss.

Das Hosten eines eigenen LLM erfordert zwar eine nicht unerhebliche Menge an Arbeitsspeicher und eine gute GPU, aber das ist nichts, was ein Cloud-Anbieter nicht bereitstellen könnte. Für diejenigen, die einen guten Laptop oder PC haben, ist LMStudio eine beliebte Option. Für den Einsatz in Unternehmen sind llama.cpp und Ollama oft die erste Wahl. Alle diese Programme haben eine rasante Entwicklung durchgemacht. Daher sollte es nicht überraschen, dass es noch einige Fehler in RAG-Komponenten zu beheben gilt.

Einige dieser Bugs sind typische Datenvalidierungs-Fehler, wie CVE-2024-37032 und CVE-2024-39720. Andere führen zu Denial-of-Service, etwa CVE-2024-39720 und CVE-2024-39721, oder sie leaken das Vorhandensein von Dateien, wie CVE-2024-39719 und CVE-2024-39722. Die Liste lässt sich erweitern.

Weniger bekannt ist llama.cpp, doch dort fand man in diesem Jahr CVE-2024-42479. CVE-2024-34359 betrifft die von llama.cpp genutzte Python-Bibliothek. Vielleicht liegt der Mangel an Informationen über llama.cpp auch an dessen ungewöhnlichem Release-Zyklus. Seit seiner Einführung im März 2023 gab es über 2.500 Releases, also etwa vier pro Tag. Bei einem sich ständig ändernden Ziel wie diesem ist es schwierig, dessen Schwachstellen zu verfolgen.

Im Gegensatz dazu hat Ollama einen gemächlicheren Release-Zyklus von nur 96 Releases seit Juli 2023, also etwa einmal pro Woche. Als Vergleich, Linux hat alle paar Monate ein neues Release und Windows erlebt jedes Quartal neue "Momente".

ChromaDB gibt es seit Oktober 2022 und fast zweiwöchentlich erscheint ein neues Release. Interessanterweise sind keine CVEs für diesen Vektorspeicher bekannt. Weaviate, ein weiterer Vektorspeicher, weist ebenfalls Schwachstellen auf (CVE-2023-38976 und CVE-2024-45846 bei Verwendung mit MindsDB). Weaviate existiert seit 2019 und ist damit ein wahrer Großvater dieses Technologie-Stacks, der jedoch immer noch einen wöchentlichen Veröffentlichungszyklus hat. Diese Veröffentlichungszyklen sind nicht in Stein gemeißelt, aber sie bedeuten doch, dass gefundene Bugs schnell gepatcht werden, wodurch die Zeit ihrer Verbreitung begrenzt wird.

LLMs für sich genommen erfüllen wahrscheinlich nicht alle Anforderungen und werden nur schrittweise verbessert, da ihnen die öffentlichen Daten zum Trainieren ausgehen. Die Zukunft gehört wahrscheinlich einer agentenbasierten KI, die LLMs, Speicher, Tools und Workflows in fortschrittlicheren KI-basierten Systemen kombiniert, so Andrew Ng, ein für seine Arbeiten zur Künstlichen Intelligenz und Robotik bekannter Informatiker. Es geht im Wesentlichen um einen neuen Software Entwicklungs-Stack, wobei die LLMs und die Vektorspeicher hier weiterhin eine wichtige Rolle spielen werden.

Doch Achtung: Unternehmen können auf dem Weg in diese Richtung Schaden nehmen, wenn sie nicht auf die Sicherheit ihrer Systeme achten.

Exponierte RAG-Komponenten
Wir befürchten, dass viele Entwickler diese Systeme in ihrer Eile dem Internet ungeschützt aussetzen könnten, und suchten deshalb im November 2024 nach öffentlich sichtbaren Instanzen einiger dieser RAG-Komponenten. Im Fokus standen dabei die vier wichtigsten Komponenten, die in RAG-Systemen zum Einsatz kommen: llama.cpp, Ollama, das LLMs hostet, sowie ChromaDB und Weaviate, die als Vektorspeicher dienen.

Weitere Details können Sie im detaillierten englischen Blogbeitrag nachlesen:
https://www.trendmicro.com/en_us/research/24/k/agentic-ai.html

Den gekürzten deutschen Blogbeitrag finden Sie hier:
https://www.trendmicro.com/de_de/research/24/l/rag-komponenten-eine-exponierte-grundlage.html
(Trend Micro: ra)

eingetragen: 24.12.24
Newsletterlauf: 11.03.25

Trend Micro: Kontakt und Steckbrief

Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.

Meldungen: Security-Tipps und Background-Wissen

Qilin erpresst seine Opfer doppelt
Qilin zählt inzwischen zu den aktivsten und wirkungsvollsten Ransomware-Operationen weltweit. Die Schadsoftware verbreitet sich zunehmend über etablierte Cybercrime-Netzwerke und spielt eine zentrale Rolle in aktuellen Bedrohungsmodellen. Die ersten Versionen wurden 2022 unter dem Namen "Agent" veröffentlicht und später vollständig in Rust neu entwickelt. Ab Ende 2023 gewann die Gruppe durch gezielte Angriffe auf VMware-ESXi-Systeme an Sichtbarkeit. Im Jahr 2024 folgten funktionale Erweiterungen, darunter ein Chrome-Stealer sowie leistungsfähigere Mechanismen zur Verschlüsselung und zur Umgehung von Sicherheitslösungen.
25 Jahre USB-Stick
Ein Vierteljahrhundert USB-Stick - und er ist noch immer im Einsatz. Ursprünglich als revolutionäre Innovation im Bereich der Flashspeicher gefeiert, übernimmt er heute andere, kritische Aufgaben beim Schutz von vernetzten OT-Systemen. Natürlich bleibt er weiterhin ein praktischer, portabler Speicher, der schnell zur Hand ist und als Notfall-Backup für die Präsentation dient. Doch obwohl der USB-Stick in Zeiten von Hybrid-Cloud und omnipräsenter Vernetzung längst als überholt gelten könnte, ist das Gegenteil der Fall: In moderner Form übernimmt das Massenspeichergerät inzwischen eine Schlüsselfunktion in der Cyber-Abwehr.
Anstieg steuerbezogener Phishing-Aktivitäten
Cyberkriminelle nutzen saisonale Ereignisse gerne aus - die Steuersaison bildet da keine Ausnahme. Sie nutzen den erhöhten Stress, die knappen Fristen und die sensiblen Finanzdaten, um sich Zugang zu sensiblen Daten zu verschaffen. Angesichts der bevorstehenden Fristen in den USA und der EU beobachtete das Team von Threat Labs im März 2025 einen Anstieg der Phishing-Angriffe um 27,9 Prozent im Vergleich zum Vormonat - viele davon enthielten Finanzinformationen.

IT- und OT-Netzwerke trennen Datendiebstahl über Streaming-Dienste

Fachbeiträge: Hintergrund

Tape hat ausgedient, Public Cloud ist verzichtbar
Zwei in der Datensicherung eingesetzte Technologien stehen derzeit bei vielen Unternehmen und Behörden auf dem Prüfstand. Bei Tape sind mit der Einführung von LTO-10 die Verbindungen zu Vorgängergenerationen komplett abgeschnitten worden, was eine vollständige Migration aller Systeme und Daten notwendig macht. Die Public Cloud entpuppt sich in vielen Fällen als wesentlich teurer als angenommen und zudem bestimmen rechtlichen Bedenken hinsichtlich Datenschutz und Datenhoheit die Diskussion.
Steigende Globalisierung von Daten
Der Aufstieg souveräner Clouds ist unausweichlich geworden, da regulatorische Anforderungen und geopolitische Spannungen Unternehmen dazu zwingen, neu zu überdenken, wo ihre Daten gespeichert werden. Lokalisierte Cloud-Umgebungen werden zunehmend unerlässlich, da sie Unternehmen erlauben, ihre Daten innerhalb bestimmter rechtlicher Rahmen zu halten, um Compliance-Anforderungen zu erfüllen und Risiken zu reduzieren. Doch souveräne Clouds können ohne Daten-Portabilität - also der Möglichkeit, Daten nahtlos zwischen Systemen und Standorten zu verschieben - nicht erfolgreich sein. Es gilt: Nicht warten, bis Regulierungen einen selbst antreiben, sondern der Entwicklung voraus sein.

Fachbeiträge: Grundlagen

Was ist eigentlich eine souveräne Cloud?
Der weltweite Wettlauf um KI-Innovation hat Cloud Computing noch weiter vorangetrieben. Doch der Fokus verschiebt sich von initialen Anwendungsfällen mit oft unkritischen Daten und einer gewissen Zurückhaltung bei der konkreten Nutzung von KI hin zu der Frage, wie man KI mit eigenen Daten verwendet und gleichzeitig das geistige Eigentum oder andere für die Organisation kritische Daten weiterhin schützt und kontrolliert.
Cloud-kompatibel werden
Im Zuge der digitalen Transformation verlangen Geschäftsmodelle nach mehr Kundennähe, digitale Produkte und Services werden in immer kürzeren Zeitspannen entwickelt und iterativ an wechselnde Kundenansprüche angepasst. Cloud-Technologien sind für Unternehmen ein wichtiger Baustein, um in dem Tempo, das der Wettbewerb vorgibt, Innovationen auf den Markt zu bringen.

IT Security

In Cybersicherheitsfortbildungen investieren
Für rund 30 Prozent der Stellen im Bereich IT-Netzwerktechnik, IT-Koordination, IT-Administration und IT-Organisation, die auch IT-Sicherheit einschließen, fehlen laut dem Kompetenzbarometer des Instituts der deutschen Wirtschaft qualifizierte Fachkräfte [1]. Die gute Nachricht: Lernende in Deutschland investieren zunehmend in Cybersicherheitsfähigkeiten. So sind laut dem "Global Skills Report 2025" [2] die Einschreibungen in Coursera-Kurse wie "Grundlagen der Cybersecurity" von Google im Vorjahresvergleich um 12 Prozent gestiegen.
Cyber-Recovery automatisch testen
Commvault gab die Partnerschaft mit Kyndryl bekannt. Ziel der Zusammenarbeit ist es, Kunden bei der zügigen Wiederherstellung von Daten und IT-Infrastrukturen nach Vorfällen oder Cyberangriffen zu unterstützen, ihre Cyberresilienz zu stärken und ihnen im zunehmend komplexen regulatorischen Umfeld Orientierung zu bieten.

IT Security - Angriffe & Lecks

Ermittlern gelingt Schlag gegen Lumma-Infostealer
Check Point Software Technologies analysiert die Tragweite des Lumma-Takedowns. Am 21. Mai 2025 gaben Europol, das FBI und Microsoft in Zusammenarbeit mit anderen Partnern aus dem öffentlichen und privaten Sektor eine Operation zur Zerschlagung der Aktivitäten des Infostealers Lumma bekannt. Die Malware, die als einer der produktivsten Infostealer gilt, wird über ein Malware-as-a-Service-Modell verbreitet. Lumma wird nicht nur von gewöhnlichen Cyber-Kriminellen zum Diebstahl von Anmeldedaten verwendet, sondern gehört auch zum Arsenal mehrerer bekannter Bedrohungsakteure, darunter Scattered Spider, Angry Likho und CoralRaider.
Überblick über die Phishing-Kampagne
Seit März 2025 hat das Team einen Anstieg von Phishing-Angriffen beobachtet, die die AppSheet-Plattform von Google ausnutzen, um eine sehr gezielte und ausgeklügelte Kampagne zu starten. Dabei geben sich die Angreifer als der Social-Media-Plattformriese Meta aus. Die Angreifer nutzen dabei hochmoderne Taktiken wie polymorphe Identifikatoren, fortschrittliche Man-in-the-Middle-Proxy-Mechanismen und Techniken zur Umgehung der Multi-Faktor-Authentifizierung. So können sie Anmeldedaten und Codes für die Zwei-Faktor-Authentifizierung (2FA) abgreifen und erhalten Echtzeit-Zugang zu Social-Media-Konten.

IT Security - Fachbeiträge

Kritischer Blick auf eigene Datenresilienz
Jahrelang haben viele Unternehmen das Thema Datenresilienz auf die lange Bank geschoben. Im Laufe der Zeit hat die Zunahme an Bedrohungen, Vorschriften und Best Practices jedoch die Spielregeln verändert. Datenresilienz steht mittlerweile fest auf der To-Do-Liste vieler Unternehmen - und das ist auch dringend notwendig.
Liquid Cooling für KI-Rechenzentren
Der breite Einsatz von Modellen künstlicher Intelligenz in Forschung, Industrie und Wirtschaft verändert die thermischen und energetischen Anforderungen an moderne Rechenzentren. Dabei wird die Kühlungsmethode Liquid Cooling (Flüssigkeitskühlung) immer relevanter, denn sie gilt als Voraussetzung für den zukunftsfähigen Betrieb rechenintensiver KI-Workloads.

IT Security - Tipps / Hintergrund / Wissen

Steigende Bedrohung durch Ransomware
Ein unachtsamer Klick oder ein ungeschütztes Gerät im Netzwerk genügt und plötzlich steht alles still. Ransomware-Angriffe treffen Unternehmen heute härter denn je: Produktionsausfälle, verärgerte Kunden, Compliance-Verstöße und oft unbrauchbare Backups sind die Probleme, vor denen Unternehmen nach einem Angriff stehen. Ein derartiges Worst-Case-Szenario ist nicht hypothetisch. Denn die Frage lautet nicht mehr ob, sondern wann ein solcher Angriff ein Unternehmen trifft.
Qilin erpresst seine Opfer doppelt
Qilin zählt inzwischen zu den aktivsten und wirkungsvollsten Ransomware-Operationen weltweit. Die Schadsoftware verbreitet sich zunehmend über etablierte Cybercrime-Netzwerke und spielt eine zentrale Rolle in aktuellen Bedrohungsmodellen. Die ersten Versionen wurden 2022 unter dem Namen "Agent" veröffentlicht und später vollständig in Rust neu entwickelt. Ab Ende 2023 gewann die Gruppe durch gezielte Angriffe auf VMware-ESXi-Systeme an Sichtbarkeit. Im Jahr 2024 folgten funktionale Erweiterungen, darunter ein Chrome-Stealer sowie leistungsfähigere Mechanismen zur Verschlüsselung und zur Umgehung von Sicherheitslösungen.