KI-Training & Urheberrecht - Zwischen Black Box und Rechtsrahmen

Dr. Eduard Hofert

19.05.2026

Key Takeaways

Erstmals in Europa hat ein Gericht das Training generativer KI-Modelle mit geschützten Werken ohne Einwilligung als Urheberrechtsverletzung eingeordnet.
Das LG München I sieht in der Memorisierung von Trainingsdaten in den Modellparametern eine Vervielfältigung nach § 16 UrhG – trotz der technischen Black-Box-Problematik und einer in der IT-Wissenschaft verbreiteten Gegenansicht.
Unabhängig davon verletzt auch die Ausgabe geschützter Werke an den Nutzer eigenständig das Urheberrecht (§§ 16, 19a UrhG). Einen persönlichkeitsrechtlichen Unterlassungsanspruch wegen verfälschter Outputs hat das LG hingegen abgewiesen; die Frage einer Entstellung nach § 14 UrhG ließ es offen.
Weder § 44a UrhG noch die TDM-Schranke des § 44b UrhG privilegieren nach Ansicht des LG das Training selbst.
Deutsches Urheberrecht ist auch auf US-Anbieter anwendbar, wenn die Outputs bestimmungsgemäß an Nutzer in Deutschlandausgegeben werden.

Das Training von KI-Systemen mit urheberrechtlich geschützten Werken

KI-Systeme werden mit umfangreichen Datensätzen trainiert, die häufig urheberrechtlich geschützte Werke enthalten. Dadurch können sie nach Eingabe eines Prompts eigenständig Texte, Bilder und andere kreative Outputs erzeugen. Dies wirft unmittelbar die Frage auf, inwiefern das Training generativer KI-Modelle mit geschützten Werken urheberrechtlich zulässig ist. Die rechtliche Bewertung dessen wird insbesondere durch die Tatsache erschwert, dass KI-Systeme eine sogenannte „Black Box“ sind: Ihre internen Funktionsweisen lassen sich nur eingeschränkt nachvollziehen. Vor diesem Hintergrund befasste sich das Landgericht (LG) München I im Rechtsstreit GEMA gegen OpenAI als eines der ersten Gerichte in Europa mit der Frage, ob die Memorisierung urheberrechtlich geschützter Werke in generativen Sprachmodellen eine Vervielfältigung darstellt (Urteil des LG München I v. 11. November 2025 – 42 O14139/24).

Ausgehend vom Grundsatzurteil des LG München I, gibt der folgende Beitrag einen leicht verständlichen Überblick über aktuelle Diskussionen und Standpunkte im Bereich der urheberrechtlichen Zulässigkeit desKI-Trainings.

GEMA vs. OpenAI

Die Verwertungsgesellschaft GEMA hat das US-amerikanischeUnternehmen OpenAI wegen der Verletzung von Urheberrechten an Songtexten inAnspruch genommen. Dabei geht es insbesondere um das Training vonChatGPT-Modellen mit lizenzpflichtigen Songtexten ohne eine Einwilligung derGEMA. Das LG kam zu dem Ergebnis, dass das Training von ChatGPT mit den streitgegenständlichen Songtexten sowie deren Ausgabe an Nutzer im konkretenFall eine Urheberrechtsverletzung darstellt. Besonders spannend sind hier die zugrundegelegten Maßstäbe, nach denen das LG zu diesem Ergebnis gelangt.

„Memorisierung“ durch das Training

Ein entscheidender Punkt des Urteils betrifft das im Schrifttum hochdiskutierte Phänomen der Memorisierung von geschützten Werken durch das Training einer KI. Memorisierung kann beschrieben werden als der Umstand, dass Trainingsdaten in KI-Modellen enthalten sind und sich durch einen einfach gehaltenen Prompt in Outputs identisch oder fast identisch reproduzieren lassen können. Dass Memorisierungen durch das Training vonKI-Modellen auftreten können, wie auch im Rechtsstreit GEMA gegen OpenAI der Fall, ist unumstritten.

„Memorisierung“ gleich urheberrechtliche Vervielfältigung?

Uneinigkeit besteht jedoch hinsichtlich der Frage, wie genaues zu einer Memorisierung kommt beziehungsweise wie sie ausgestaltet ist und obsie in Abhängigkeit dessen eine urheberrechtliche Vervielfältigung darstellen kann. Eine Vervielfältigung im Sinne des § 16 UrhG ist jede körperliche Festlegung eines Werkes, die geeignet ist, das Werk den menschlichen Sinnen mittelbar oder unmittelbar wahrnehmbar zu machen. Angesichts der KI-Systeme als Black Box kommen bei der Frage nach der Memorisierung als Vervielfältigung jenach technischer Betrachtung verschiedene Ansichten zu unterschiedlichenErgebnissen. Im Fall GEMA gegen OpenAI kommt das LG zu dem Schluss, dass es sich bei der Memorisierung der Songtexte in den Modellen um eine Vervielfältigung im Sinne des § 16 UrhG handelt. Die körperliche Festlegung der Songtexte in den Modellparametern begründet das Gericht mit der Memorisierung. Die Texte sind in den Modellen festgelegt, gespeichert, enthalten, weil sie auf einen einfach gehaltenen Prompt hin reproduzierbar sind. Zudem reicht es nach der Ansicht des LG für die mittelbare Wahrnehmbarkeit aus, dass die Songtexte auf Output-Ebene durch einfache Prompts wahrnehmbar gemacht werden können. Die Begründung des Gerichts ist stark wertungsgetragen: Das LG stützt sich maßgeblich auf die Technologieneutralität des § 16 UrhG (Rn. 177 f.) sowie auf Parallelen zu anerkannten Vervielfältigungsformen wie der verlustbehafteten MP3-Kompression und progressiv gespeicherten JPEG-Dateien (Rn. 183 f.). Ein konkret abgrenzbarer Datensatz im Modell sei nach Auffassung des Gerichts nicht erforderlich (Rn. 184 f.).

Die eigentliche dogmatische Streitfrage ist damit weniger, ob im Modell eine Kopie im klassischen Sinne liegt — das LG lässt ausdrücklich offen, ob man von Speichern, Kopieren oder einem bloßen Reflektieren in Parametern spricht (Rn. 186) —, sondern, ob der Begriff der körperlichen Festlegung auch die Verteilung eines Werkes auf Wahrscheinlichkeitsparameter erfasst. In der IT-Wissenschaft wird vertreten, dass wörtliche Reproduktionen zwar selten und unbeabsichtigt auftreten können, daraus jedoch nicht folge, dass ganze Werke als Dateien oder Textfragmente im Modell gespeichert seien. Grund hierfür ist die technische Arbeitsweise der KI-Modelle. Die Parameter eines KI-Modells kodieren lediglich statistische Beziehungen, wobei die Outputs innerhalb des hochdimensionalen Parameterraumes variieren. Sie sind nichtvorhersehbar. Gibt ein Output dennoch Trainingsdaten nahezu identisch wieder, ist dies nach dieser Auffassung eine Folge statistischer Häufungen im Training (etwa mehrfach auftretender Trainingsdaten) und nicht Ausdruck einer gespeicherten Kopie. Ob eine Memorisierung damit bereits nicht alsVervielfältigung im Sinne des § 16 UrhG einzuordnen ist, hängt entscheidend davon ab, wie weit man den Begriff der körperlichen Festlegung fasst — das LG München I legt ihn bewusst weit aus.

Output als eigenständige Urheberrechtsverletzung

Das LG prüft die Memorisierung und die konkrete Ausgabe der Songtexte als zwei getrennte Verletzungsebenen. Auch wenn man eine Memorisierung im Modell nicht als Vervielfältigung einordnet, stellt die Ausgabe eines geschützten Werkes an den Nutzer für sich genommen eine Vervielfältigung nach § 16 UrhG und eine öffentliche Wiedergabe nach § 19a UrhG dar. Gibt das Modell auf einen einfach gehaltenen Prompt hin Songtexte identisch oder nahezu identisch aus, liegt darin nach Auffassung des Gerichts eine unmittelbare Nutzungshandlung des Betreibers. Den auf das allgemeine Persönlichkeitsrecht gestützten Antrag, den Textdichtern die verfälschten Outputs nicht zuzuschreiben, hat das LG hingegen abgewiesen (Rn. 301 ff.): Betroffen sei nur die Sozialsphäre der Urheber, schwerwiegende Auswirkungen lägen nicht vor. Die Frage einer Entstellung nach § 14 UrhG hat das Gericht ausdrücklich offengelassen (Rn. 292), da der Unterlassungsanspruch bereits aus§§ 16, 19a, 23 UrhG folgte.

Weitere Kernpunkte des Urteils

Für die Praxis mindestens ebenso bedeutsam sind zwei weitere Weichenstellungen des Urteils:

Text-und-Data-Mining-Schranke (§ 44b UrhG): Das LG differenziert zwischen der Erstellung des Trainingskorpus (von § 44b gedeckt) und dem Training des Modells selbst. Vervielfältigungen, die beim Training durch Memorisierung entstehen, dienen nach Ansicht des Gerichts nicht mehr demZweck des Text und Data Mining und sind daher nicht von der Schranke erfasst (Rn. 193, 200 ff.). Für kommerzielle Anbieter bleibt damit als Weg nur die Lizenzierung oder ein Training mit effektiv dedupliziertem Korpus; die Forschungsschranke des § 60d UrhG kommt nur für nicht kommerzielle Forschungseinrichtungen in Betracht.

Haftung für Outputs: Die Betreiber üben nach dem Urteil die Tatherrschaft über Ausgaben aus, die auf einfach gehaltene Prompts hin entstehen (Rn. 275 ff.). Die Tatherrschaft kann allerdings auf den Nutzer übergehen, wenn Outputs durch manipulative Prompts gezielt provoziert werden —eine in der Praxis bedeutsame, aber im Einzelfall heikle Abgrenzung.

§ 44a UrhG(vorübergehende Vervielfältigungen): Das LG lehnt eine Privilegierung der Memorisierung nach § 44a UrhG ab. Die Festlegung in den Modellparametern ist nach Ansicht des Gerichts nicht vorübergehend, sondern dauerhaft – sie bleibt über die gesamte Nutzungsdauer des Modells bestehen und ist für dessen Funktion konstitutiv.

Opt-out nach § 44b Abs. 3 UrhG: Über die Wirksamkeit des von der GEMA erklärten Nutzungsvorbehalts musste das LG nicht entscheiden, da es die TDM-Schranke auf das Training ohnehin für nicht anwendbar hielt (Rn. 193,210). In der Praxis dürfte der maschinenlesbare Nutzungsvorbehalt für Rechteinhaber gleichwohl der wichtigste Hebel bleiben, um Text-und-Data-Mining– und damit nach Lesart des Gerichts auch das darauf aufbauende Training – zu untersagen.

Passivlegitimation von OpenAI: Das LG bejaht die Anwendbarkeit deutschen Urheberrechts und die Passivlegitimation der US-amerikanischen OpenAI-Gesellschaften. Maßgeblich ist, dass die streitgegenständlichen Outputs bestimmungsgemäß an Nutzer in Deutschland ausgegeben werden; eine Trennung zwischen US-seitigem Training und deutschem Output-Markt hilft dem Anbieter nicht.

Die Fragen, wie eine Memorisierung genau entsteht und ausgestaltet ist und ob oder wenn ja, in welchen Konstellationen, eine Memorisierung eine Vervielfältigung nach dem Urheberrecht sein kann, sind weiterhin nicht einheitlich geklärt. Aus praktischer Perspektive geht es im Wesentlichen um die Frage, ob KI-Training als lizenzpflichtige Nutzung einzuordnen ist, was die weitreichenden Folge neuer Lizenzstrukturen und damit einhergehender Einnahmequellen nach sich ziehen würde. Die Antworten auf die Fragen hängen maßgeblich von einem Durchdringen der technischen Komplexität der KI-Modelle ab. Weder die Rechtsprechung noch das Schrifttum haben bislang eine konsistente Linie entwickeln können. Fest steht, dass sich ausgehend von dem derzeit noch nicht rechtskräftigen Urteil des LG München I weitere Instanzgerichte mit den Fragen befassen werden und außerhalb dieses Verfahrens weitere Urteile, insbesondere auf internationaler Ebene, mit Spannung zu erwarten sind.

‍

Dr. Eduard Hofert

Partner

Tech/Data/Web3 Lawyer mit Fokus auf komplexe Tech-Verträge wie Enterprise-Deals oder strategische Partnerschaften. Berät außerdem zu regulatorischen Rahmenbedingungen bei komplexen Technologien (insbesondere KI und Web3) – pragmatisch und umsetzungsorientiert.

Willkommen auf unserem Blog!

Hier teilen wir unser Erfahrungen aus der Praxis aus einer Vielzahl von komplexen Vertragsverhandlungen über Umsetzungen von Legal-Ops-Strategien bis zur pragmatischen Umsetzung neuer Regulierungen.

Beratungsbedarf?

Wir unterstützen Softwareanbieter pragmatisch und mit tiefer Branchenkenntnis bei komplexen Vertragsverhandlungen und der Umsetzung von Digitalregulierung.

Kostenloses Erstgespräch