openPR Recherche & Suche
Presseinformation

Neues Verfahren erkennt, ob Copyright-geschützte Bilder zum Training von KI-Modellen eingesetzt wurden

17.07.202509:59 UhrIT, New Media & Software
Bild: Neues Verfahren erkennt, ob Copyright-geschützte Bilder zum Training von KI-Modellen eingesetzt wurden

(openPR) KI-Bildgeneratoren haben in den letzten Jahren ein rasantes Wachstum erfahren. Viele der Generatoren wie etwa DALL·E, Midjourney oder Stable Diffusion basieren auf sogenannten Diffusion Models. „Ein Diffusion Model ist ein tiefes neuronales Netz, das lernt, Bilder schrittweise zu erzeugen, indem es nach und nach Rauschen aus dem Bild entfernt“, erklärt Antoni Kowalczuk, PhD-Student am CISPA. Trainiert wurden diese Systeme mit Millionen von Bildern aus dem Internet. Dies geschah angeblich ohne Zustimmung der Urheber:innen, was rechtliche und ethische Probleme aufwirft. „Als die Modelle noch rein wissenschaftlichen Zwecken dienten, hat die Urheberrechtsfrage niemanden so wirklich interessiert“, erzählt Kowalczuk. „Aber ab dem Moment, in dem die Leute anfingen, mit den Modellen Geld zu verdienen, wurde das Thema plötzlich relevant. Ich dachte, dass ich da mit meiner Forschung etwas bewirken kann.“

Warum bisherige Methoden versagen

Bisherige Anwendungen, die herausfinden, ob KI-Modelle bestimmte Bilder als Trainingsmaterial verwenden, basieren auf einer Methode namens „Membership Inference Attacks“ (MIA). Diese versuchen zu beurteilen, ob ein einzelnes Bild zum Training eines KI-Modells verwendet wurde. Die Forschung zeigt jedoch, dass die Wirksamkeit solcher Angriffe (MIAs) gegen null geht, sobald die Modelle und ihre Trainingsdaten größer werden – was in der Regel der Fall ist.„Aus diesem Grund habe ich mit meinen Kolleg:innen eine neue Methode namens „Copyrighted Data Identification“ (CDI) entwickelt“, erzählt der CISPA-Forscher. „Grundlegend für CDI ist, dass wir nicht einzelne Bilder, sondern ganze Datensätze untersuchen – zum Beispiel eine Sammlung von Stockfotos oder ein digitales Kunstportfolio.“

Wie CDI funktioniert

Um zu überprüfen, ob urheberrechtlich geschütztes Material zum Training eines KI-Modells verwendet wurde, hat Kowalczuk für CDI ein vierstufiges Verfahren konzipiert. Zuerst müssen zwei Datensets zusammengestellt werden: „Im Ersten sind Bilder enthalten, von denen der Dateninhaber glaubt, dass sie zum Training dieses spezifischen Modells verwendet wurden. Das Zweite ist ein sogenannter Validierungssatz, der aus Bildern besteht, bei denen wir uns zu 100 % sicher sind, dass sie nicht beim Training verwendet wurden“, erklärt der Forscher. Anschließend lässt man beide Datensätze durch das KI-Modell laufen, um dessen Reaktionen zu beobachten. Auf Grundlage dieser Reaktionen wird ein Werkzeug trainiert, das erkennen kann, ob der betroffene Datensatz wahrscheinlich Teil der Trainingsdaten war. „Am Ende wird ein statistischer Test durchgeführt, um zu prüfen, ob die betroffenen Daten systematisch höhere Werte erzielen als die unveröffentlichten“, so der Forscher. Ist das der Fall, spricht das stark dafür, dass die KI mit diesen Daten trainiert wurde; ist das nicht der Fall, bleibt das Ergebnis offen.

Der CISPA-Forscher testete CDI an einer Reihe bestehender KI-Modelle, für die Informationen über die Trainingsdaten vorliegen – zum Beispiel Modelle, die mit dem ImageNet-Datensatz trainiert wurden. Dabei nutzte er sowohl echte Bilddatensätze (etwa aus der Open-Images-Datenbank) als auch gezielt manipulierte Testdaten. Die Ergebnisse sind vielversprechend, erzählt Kowalczuk: „CDI kann mit hoher Genauigkeit erkennen, ob ein Datensatz im Training war, auch bei komplexen, großen Modellen. Selbst wenn wir die exakten Bilder, die zum Training verwendet wurden, nicht eindeutig identifizieren können, lässt sich dennoch zuverlässig erkennen, ob Daten aus dem Datensatz zum Training des Modells verwendet wurden. CDI liefert auch dann zuverlässige Ergebnisse, wenn nur ein Teil des Gesamtwerks im Training genutzt wurde.“

Hürden für die Anwendung und den Transfer in die Praxis

Im Moment ist CDI noch eine Methode, deren Anwendung aufgrund ihrer Komplexität vor allem Wissenschaftler:innen vorbehalten ist. „Einige der von uns extrahierten Merkmale erfordern vollständigen Zugriff auf das Modell und seinen Code“, so Kowalczuk. „Darüber hinaus gibt es einige sehr wichtige Kriterien für die von uns verwendeten Datensamples.“ Insofern liefert CDI im Moment vor allem einen theoretischen Nachweis, dass es möglich ist herauszufinden, ob ein bestimmter Satz von Bildern zum Training von KI-Modellen verwendet wurde. Zur Entwicklung einer Anwendung, die auch Urheber:innen ohne großes technisches Know-how nutzen können, wären weitere Modifikationen und Entwicklungen notwendig, die im Moment jedoch technisch (noch) nicht lösbar erscheinen. „CDI ist noch ziemlich jung und es gibt noch viel zu tun. Aber eines ist klar: Wenn wir bessere Methoden haben, werden wir vielleicht irgendwann die Brücke von der Theorie zur Umsetzung überschreiten“, zeigt sich der CISPA-Forscher überzeugt.

Originalpublikation:
Dubiński, Jan; Kowalczuk, Antoni; Boenisch, Franziska; Dziedzic, Adam (2025). CDI: Copyrighted Data Identification in Diffusion Models. CISPA. Conference contribution. https://doi.org/10.60882/cispa.29436212.v1

Diese Pressemeldung wurde auf openPR veröffentlicht.

Verantwortlich für diese Pressemeldung:

News-ID: 1287925
 577

Kostenlose Online PR für alle

Jetzt Ihren Pressetext mit einem Klick auf openPR veröffentlichen

Jetzt gratis starten

Pressebericht „Neues Verfahren erkennt, ob Copyright-geschützte Bilder zum Training von KI-Modellen eingesetzt wurden“ bearbeiten oder mit dem "Super-PR-Sparpaket" stark hervorheben, zielgerichtet an Journalisten & Top50 Online-Portale verbreiten:

PM löschen PM ändern
Disclaimer: Für den obigen Pressetext inkl. etwaiger Bilder/ Videos ist ausschließlich der im Text angegebene Kontakt verantwortlich. Der Webseitenanbieter distanziert sich ausdrücklich von den Inhalten Dritter und macht sich diese nicht zu eigen. Wenn Sie die obigen Informationen redaktionell nutzen möchten, so wenden Sie sich bitte an den obigen Pressekontakt. Bei einer Veröffentlichung bitten wir um ein Belegexemplar oder Quellenennung der URL.

Pressemitteilungen KOSTENLOS veröffentlichen und verbreiten mit openPR

Stellen Sie Ihre Medienmitteilung jetzt hier ein!

Jetzt gratis starten

Weitere Mitteilungen von idw - Informationsdienst Wissenschaft

Studie zur Inklusion am Arbeitsplatz im Mittelstand
Studie zur Inklusion am Arbeitsplatz im Mittelstand
Trotz gesetzlicher Vorgaben wie der Beschäftigungsquote und vielfältiger Förderinstrumente bleibt die Beschäftigung von Menschen mit Schwerbehinderung und gleichgestellter Personen eine gesamtgesellschaftliche Aufgabe. Gerade für den Mittelstand sind aktuelle Daten zur betrieblichen Praxis jedoch Mangelware. Die Studie mit dem Fokus auf Rheinland-Pfalz hilft, diese Lücke zu schließen und leitet aus den Ergebnissen konkrete Handlungsschwerpunkte ab. Die Forschungsarbeit wurde durch eine Förderung des Ministeriums für Arbeit, Soziales, Transfo…
Signifikante Beschleunigung der globalen Erwärmung seit 2015
Signifikante Beschleunigung der globalen Erwärmung seit 2015
„Wir können nun erstmals eine starke und statistisch signifikante Beschleunigung der Erderwärmung nach 2015 belegen,“ sagt Grant Foster, ein US-Statistikexperte und Co-Autor der Studie, die heute in der Fachzeitschrift Geophysical Research Letters veröffentlicht wurde. „Entscheidend ist, dass wir aus den Messdaten bekannte, natürliche Schwankungen herausrechnen, sodass das zufällige ‚Rauschen‘ geringer wird und daher das langfristige Erwärmungssignal klarer hervortritt.“ Kurzfristige natürliche Schwankungen der globalen Temperatur, verursach…
06.03.2026
15:00

Das könnte Sie auch interessieren:

Bild: FileMaker 2025 integriert LoRA-Training – KI-Feintuning erstmals direkt aus der DatenbankBild: FileMaker 2025 integriert LoRA-Training – KI-Feintuning erstmals direkt aus der Datenbank
FileMaker 2025 integriert LoRA-Training – KI-Feintuning erstmals direkt aus der Datenbank
… Adapter – angelernt. Das spart Rechenzeit, Energie und ermöglicht es, ein Basismodell an eigene Themen, Tonalitäten oder Fachsprachen anzupassen. Bisher war dieses Verfahren allerdings hochtechnisch und fehleranfällig. Die meisten Anwender arbeiteten mit komplexen Python-Frameworks wie PEFT, Axolotl oder kohya_ss und mussten sich durch eine Vielzahl …
Bild: Moritz Strate über Urheberrechte bei der Verwendung von Künstlicher IntelligenzBild: Moritz Strate über Urheberrechte bei der Verwendung von Künstlicher Intelligenz
Moritz Strate über Urheberrechte bei der Verwendung von Künstlicher Intelligenz
… urheberrechtlich schützen lassen. Inhalt: • Besitzen KI-Erzeugnisse Urheberrechtsschutz? • Können Verwerter KI-Erzeugnisse schützen? • Moritz Strate über urheberrechtlich geschützte Werke zum Training von künstlichen Intelligenzen • KI-Training mit eigenen Inhalten BESITZEN KI-ERZEUGNISSE URHEBERRECHTSSCHUTZ? Verwerter stehen vor Herausforderungen, wenn es …
Bild: Künstliche Intelligenz und Quantencomputing: Eine zukunftsfähige KombinationBild: Künstliche Intelligenz und Quantencomputing: Eine zukunftsfähige Kombination
Künstliche Intelligenz und Quantencomputing: Eine zukunftsfähige Kombination
… Vorteile bieten, da keine Übersetzung der Daten erforderlich ist. In Verbindung mit der Künstlichen Intelligenz können Quantencomputer beispielsweise die Trainingszeiten von komplexen KI-Modellen erheblich reduzieren. Abschließend ist zu sagen, dass sowohl Quantencomputing als auch KI enorme Potenziale für die Zukunft bieten. Während Quantencomputer …
Bild: Die Zukunft der KI - Höhere Rechenleistungen als Schlüssel zu bahnbrechenden InnovationenBild: Die Zukunft der KI - Höhere Rechenleistungen als Schlüssel zu bahnbrechenden Innovationen
Die Zukunft der KI - Höhere Rechenleistungen als Schlüssel zu bahnbrechenden Innovationen
… indem sie z. B. Videos und sensorische Daten effizient verarbeiten.Wir sehen hierin eine große Chance für alle Entwickler und Betreiber von KI-Modellen. Die steigenden Anforderungen an Compute-Ressourcen für Video-Training und abstrakte Reasoning machen jedoch fortschrittliche Hardware unverzichtbar. Inference-server.com, als Vorreiter in effizienten …
Bild: Künstliche Intelligenz ohne Datenengpass: Synthetic Data wird zum InfrastrukturthemaBild: Künstliche Intelligenz ohne Datenengpass: Synthetic Data wird zum Infrastrukturthema
Künstliche Intelligenz ohne Datenengpass: Synthetic Data wird zum Infrastrukturthema
… künstlich generierte, statistisch realistische Datensätze, schickt sich an, diesen Engpass zu lösen. Für Investoren entsteht ein neues Infrastruktursegment zwischen Cloud, KI-Modellen und Fachanwendungen. Der Markt für Synthetic-Data-Lösungen wächst rasant. Studien beziffern das globale Marktvolumen auf wenige hundert Millionen US-Dollar im Jahr 2024, …
Bild: Berliner Tech-Entwickler bringt neues Werkzeug zum eigenen Bauen von KI-Apps herausBild: Berliner Tech-Entwickler bringt neues Werkzeug zum eigenen Bauen von KI-Apps heraus
Berliner Tech-Entwickler bringt neues Werkzeug zum eigenen Bauen von KI-Apps heraus
… Programmierkenntnisse maßgefertigte KI-gestützte Apps innerhalb von Minuten erstellt werden können. Die Apps werden an die spezifischen Bedürfnisse angepasst, indem aus verschiedenen KI-Modellen gewählt werden kann und diese auch miteinander verbunden werden können.Mindverse-Apps: In wenigen Schritten zur eigenen KI-AppGeschäftsführer Noel Lorenz: “Unser Dashboard …
Weniger Rechenaufwand für zuverlässige KI-Antworten
Weniger Rechenaufwand für zuverlässige KI-Antworten
… führt Hübotter aus.Weniger Überlagerungen durch RedundanzDas bisher gebräuchlichste Vorgehen zur Auswahl der für die Antwort geeigneten Informationen, das sogenannte Nearest-Neighbor-Verfahren, tendiert demgegenüber dazu, vor allem vielfach vorhandene redundante Informationen anzusammeln. Der Unterschied zwischen den zwei Methoden wird am Beispiel eines …
Pressemitteilung
Pressemitteilung
… Data Science/Machine Learning, Industrieprozesse sowie agile Softwareentwicklung. Im Besonderen setzt er sich mit der Anwendung und Übertragung innovativer Machine Learning Modelle und Verfahren aus der Forschung in die industrielle Praxis auseinander. Als Mitbegründer und derzeitiger Geschäftsführer der AIM und inserve GmbH fallen vielfältige Aufgaben …
Licht ins Dunkel: „LightShed“ umgeht bekannteste Schutzmechanismen gegen KI-generierte Kunst
Licht ins Dunkel: „LightShed“ umgeht bekannteste Schutzmechanismen gegen KI-generierte Kunst
… vorgestellt, die in der Lage ist, moderne Bildschutzwerkzeuge zu umgehen. Diese Werkzeuge sollen Künstler:innen davor schützen, dass ihre Werke ohne Zustimmung zum Training von KI-Modellen verwendet werden. Zu den bekanntesten darunter zählen „Glaze“ und „NightShade“, die zusammen bereits über 8,8 Millionen Mal heruntergeladen wurden und in prominenten Medien …
Sie lesen gerade: Neues Verfahren erkennt, ob Copyright-geschützte Bilder zum Training von KI-Modellen eingesetzt wurden