Dr. Tobias Eggers

Large Concept Models und die Bedeutung für Legal-KI und Compliance

Die Entwicklung Künstlicher Intelligenz (KI) im Rechtsbereich verläuft nicht in gemächlichen Schritten, sondern in Sprüngen. Noch vor wenigen Jahren sprachen alle über Large Language Models (LLMs) wie ChatGPT, Gemini oder Claude. Heute steigern diese Systeme ihre Leistungsfähigkeit so schnell, dass Fachleute von einer „Kapazitätsverdopplung pro Quartal“ sprechen.1 Mit den sogenannten Large Concept Models (LCMs) beginnt nun eine neue Phase:2 Während LLMs Wörter und Satzteile wie Perlen an einer Kette aneinanderreihen, arbeiten LCMs mit ganzen Bedeutungsblöcken. Semantische Einheiten, die wie fertige Gedankenpakete daherkommen. Das verändert die Spielregeln: Stellen Sie sich vor, Sie lesen den Entwurf einer EU-Verordnung. Noch bevor Sie den Text ganz durchgearbeitet haben, meldet Ihr System: „Achtung! Der neue ‚Sorgfaltspflicht‘-Tatbestand kollidiert mit Ihren internen Lieferketten-Regelungen.“ Dabei taucht das Wort „Lieferkette“ im Gesetz gar nicht auf. Ein LCM erkennt den inhaltlichen Zusammenhang trotzdem. Ein LLM könnte das nicht. Für die Compliance-Praxis ist das auch kein theoretischer Luxus. Es geht vielmehr um die Fähigkeit, Rechtsgedanken zu erkennen, zu vergleichen und in Beziehung zu setzen, statt sich allein auf sprachliche Muster zu verlassen.

I. Von LLM zu LCM: Ein konzeptueller Unterschied

1. Technische Unterschiede

LLMs wie GPT-5 oder Gemini 2.5 arbeiten wie geübte Texter: Sie überlegen, welches Wort oder Satzzeichen als Nächstes passt, und hängen es an die bestehende Formulierung. Trainiert werden sie darauf, das wahrscheinlichste nächste Token vorherzusagen, basierend auf statistischen Mustern im Trainingsmaterial.3

LCMs hingegen denken in größeren Einheiten. Sie behandeln nicht einzelne Wörter, sondern ganze Konzepte, inhaltlich abgeschlossene Gedanken, wie „Täuschungsabsicht“ oder „Organisationsverschulden“.4 Diese Konzepte speichern und verarbeiten sie in einem sogenannten Konzept-Embedding-Raum. Man kann sich das wie eine Landkarte vorstellen, auf der juristisch verwandte Ideen dicht beieinanderliegen. Und das unabhängig von Sprache oder Formulierung.

Technisch ist das ein Bruch mit dem LLM-Prinzip: Semantische Embedding-Techniken gibt es zwar schon länger (BERT, Sentence-BERT, Vektorsearch), neu ist jedoch die Verbindung dieser Repräsentationen mit einer autoregressiven Konzeptprognose.5 Das Modell sagt nicht einfach das nächste Wort vorher, sondern den nächsten inhaltlichen Gedanken und übersetzt diesen erst danach in Sprache. Dadurch werden die Modelle robuster gegenüber Formulierungsvielfalt. Synonyme, Paraphrasen oder juristische Umschreibungen werden als dasselbe Konzept erkannt. Es gibt auch weniger Abhängigkeit von Schlüsselwörtern.

Der LCM-Workflow hat drei Kernmodule: Concept Encoder, LCM Core und Concept Decoder.6 Der Concept Encoder transformiert Eingaben. Text, gegebenenfalls multimodale Inhalte, in hochdimensionale Konzept-Embeddings. Der LCM Core verarbeitet diese Embeddings hierarchisch und plant die nächste semantische Einheit, bevor Sprache überhaupt erzeugt wird. Der Concept Decoder übersetzt die gewählte Konzeptrepräsentation zurück in sprachliche Form. Diese modulare Architektur erhöht die Robustheit gegenüber Formulierungsvarianten und unterstützt hierarchisches Reasoning, bei dem juristische Konzepte in logischen Abhängigkeiten verarbeitet werden.

Das ist keine bloße technische Verfeinerung, sondern eine methodische Zäsur.7 Es eröffnet die Möglichkeit, juristische Inhalte unabhängig von ihrer sprachlichen Verpackung zu identifizieren, zu vergleichen und zu verknüpfen. Eine Fähigkeit, die in der Praxis bisher oft an der Sprachoberfläche stecken blieb.

2. LCM vs. LLM in der Anwendung

Viele Compliance-Verantwortliche arbeiten heute bereits mit LLMs, sei es, um Richtlinien zu durchsuchen, Passagen zusammenzufassen oder schnelle Recherchen durchzuführen. Mit den richtigen Prompts und Erweiterungen wie Retrieval-Augmented Generation (RAG) oder semantischer Vektorsuche können auch diese Systeme inhaltliche Zusammenhänge erkennen. Der entscheidende Unterschied: Bei LLMs entsteht die semantische Analyse nachträglich. Das Modell erzeugt oder bewertet Text auf Token-Basis und greift dann über externe Embedding-Verfahren (fehleranfällig) auf semantische Relationen zu. LCMs hingegen arbeiten von Beginn an in einem Konzept-Embedding-Raum und prognostizieren direkt die nächste semantische Einheit. Die inhaltliche Abstraktion ist hier nicht ein Zusatzschritt, sondern das Herz des Modells.

LCMs sind eher in der Lage, neu eingeführte Regelungskonzepte korrekt einzuordnen, selbst wenn diese im Training nicht explizit vorkamen.8 Für komplexe, mehrsprachige und inhaltlich variantenreiche Norm- und Richtlinienlandschaften ist das ein qualitativer Sprung.

Konzeptueller Abgleich trotz unterschiedlicher Terminologie, das kann nur das LCM. Stellen Sie sich vor, der Gesetzgeber führt einen neuen „Sorgfaltspflicht“-Tatbestand ein. Ein LLM findet dazu alle Dokumente, in denen ähnliche Worte vorkommen. Ein LCM erkennt zusätzlich, dass diese Pflicht inhaltlich mit bestehenden Lieferketten-Regelungen kollidiert, auch wenn in den internen Dokumenten das Wort „Lieferkette“ nie steht.
Mehrsprachige Konzeptverknüpfung. Das kann auch nur das LCM. Ein französisches Gerichtsurteil liegt vor. Ohne Übersetzung weist ein LCM es automatisch dem deutschen Compliance-Risikobereich „Interessenkonflikt“ zu, weil es das dahinterliegende Konzept erkennt. Es geht eben um mehr als eine Übersetzung.
Queranalysen über Dokumenttypen hinweg. Ebenfalls nur beim LCM. Das System kann ein Urteil, eine interne Arbeitsanweisung und einen Vertrag inhaltlich miteinander verknüpfen und so Regelungswidersprüche sichtbar machen.
Auch mit LLM und guter Datenbasis erreichbar: Wer bereits einen klar definierten internen Begriffskatalog nach ISO 37301 pflegt, kann mit LLMs ebenfalls bessere Suchergebnisse und Analysen erzielen. Unterschied: LLMs benötigen dafür eine hohe sprachliche Nähe; LCMs nicht.9 Und sie sind viel langsamer als LCMs.

II. Technologische Grundlagen

Um die sich daraus ergebenden Möglichkeiten richtig einzuordnen, lohnt sich ein Blick darauf, wo LCMs heute stehen. Welche Architekturvarianten gibt es, und welche technischen Grenzen sind bislang noch nicht überwunden?

1. Large Concept Models, Stand der Forschung

Die Geburtsstunde der LCM-Forschung schlug im Dezember 2024: Meta AI veröffentlichte den ersten Prototypen eines Large Concept Model.10 Dieses Modell arbeitet im SONAR-Embedding-Space, einem mehrsprachigen, hochdimensionalen Bedeutungsraum, der Konzepte aus über 200 Sprachen nebeneinanderlegt. Man kann sich das vorstellen wie eine juristische Weltkarte, auf der gleichbedeutende Rechtsbegriffe, egal aus welchem Sprachraum, eng beieinanderliegen.

Das Neue daran ist nicht nur die Architektur, sondern auch die Art, wie das Modell denkt:11 Erste Tests zeigen, dass dieser Ansatz in Zero-Shot-Aufgaben, also ohne Spezialtraining, bei sprachübergreifenden Vergleichsaufgaben bereits jetzt deutlich präziser arbeitet als klassische LLMs.12

Nur wenige Monate später, im August 2025, folgte der nächste Schritt: SONAR-LLM.13 Dieses Hybridmodell verbindet die semantische Tiefe eines LCM mit der Stabilität und Skalierbarkeit tokenbasierter Trainingsverfahren. Für die Praxis bedeutet das: ein besserer Umgang mit langen Kontexten, ohne den konzeptuellen Vorteil aufzugeben.

Parallel dazu gewinnt ein weiterer Forschungsstrang an Bedeutung: Neuro-Symbolic AI. Hier werden neuronale Modelle wie LCMs mit regelbasierten Systemen kombiniert (Ontologien, Wissensgraphen, formale Logik). Ziel ist es, maschinelle Mustererkennung mit einer transparenten, prüfbaren Begründungsschicht zu verbinden. Gerade für Compliance-Systeme, die im Streitfall vor Behörden oder Gerichten standhalten müssen, könnte das ein entscheidender Baustein sein.

Die Entwicklung verläuft rasant. Von der Grundlagenarchitektur über hybride Ansätze bis hin zur Integration in erklärbare KI-Systeme. Doch so beeindruckend die Fortschritte sind: Die Modelle sind noch jung, und ihr Potenzial muss in juristischen Szenarien erst noch unter Beweis gestellt werden.

2. Technologische Treiber und strategische Relevanz

Warum sollten sich Compliance-Verantwortliche schon jetzt mit LCMs beschäftigen, obwohl die Technologie noch im Laborstadium steckt? Drei Entwicklungen drängen sich hier auf:

Meta hat nicht nur über LCMs geschrieben, sie haben vielmehr den Quellcode und die SONAR-Embeddings frei zugänglich gemacht.14 Für Unternehmen bedeutet das: Sie können in gesicherten internen Umgebungen eigene Pilotprojekte starten, ohne vertrauliche Daten an externe Plattformen zu geben. In Zeiten, in denen Datenschutz (Art. 32 DSGVO) und Geschäftsgeheimnisschutz (§ 2 GeschGehG) oberste Priorität haben, ist das ein strategischer Vorteil.
Während sich neue LLM-Generationen teilweise über ein Jahr Zeit lassen, erscheinen LCM-Iterationen und Hybride wie SONAR-LLM im Monatsrhythmus. Wer seine Begriffssysteme und Pflichtenkataster nach ISO 37301 (Ziff. 6.1) und IDW PS 980 (Tz. 22 ff.) aktuell hält, ist in der Lage, solche Neuerungen sofort produktiv zu testen.
Die Verbindung von LCMs mit regelbasierten Systemen könnte der Schlüssel zu „erklärbarer KI“ im Rechtsbereich sein. Ein LCM erkennt ein Konzept, das regelbasierte Modul prüft es auf juristische Konsistenz und dokumentiert die Begründung. Eine Arbeitsweise, die der in § 130 OWiG geforderten „gehörigen Aufsicht“ sehr nahekommt.15 Diese Treiber sorgen für Zeitdruck. Wer erst reagiert, wenn LCMs flächendeckend in Produkten verfügbar sind, verliert den Vorsprung bei der internen Vorbereitung, und muss die wichtigsten konzeptionellen Hausaufgaben schnell nachholen.

3. Technische Limitierungen der ersten LCM-Generation

So vielversprechend die Entwicklung von LCMs ist, die ersten Generationen zeigen klare Grenzen, die man kennen sollte, bevor man sie in Compliance-Szenarien einplant.

In Tests neigen die Modelle zu kürzeren Ausgaben. Komplexe juristische Argumentationsketten, die sich über viele Absätze ziehen, bringen sie schneller an ihre Grenzen als ein gut optimiertes LLM. Für umfangreiche Schriftsätze oder verschachtelte Rechtsgutachten bedeutet das: Nacharbeit durch den Menschen bleibt Pflicht.
LCMs verzichten bewusst auf die feine Token-Ebene, was ihre konzeptuelle Stärke ausmacht. Der Preis: Sie sind weniger präzise, wenn es um sprachlich sehr feine Unterscheidungen geht, etwa bei Synonymen mit leicht unterschiedlichen juristischen Bedeutungen.
Die bisher veröffentlichten LCMs basieren stark auf dem SONAR-Embedding-Raum. Das funktioniert hervorragend in Standardszenarien, kann aber bei Nischenthemen oder Spezialrechtsgebieten heißen: aufwendig nachtrainieren.
Die meisten bisherigen Benchmarks stammen aus Sprachvergleichs- oder Übersetzungstests. Großangelegte juristische Prüfungen, etwa auf Akten- oder Vertragskorpora, stehen noch aus.
Regulatorisch gibt es zwei kritische Punkte. Erstens die Erklärbarkeit: Ein CMS muss methodisch nachvollziehbar sein (ISO 37301:2021, Ziff. 9.1; IDW PS 980). Reine Embedding-Prozesse sind oft zu intransparent. Zweitens die rechtlichen Rahmenbedingungen: Datenschutz durch Technikgestaltung und angemessene Sicherheit (Art. 32 DSGVO) sind Pflicht, und die Aufsichtsverantwortung der Unternehmensleitung bleibt unübertragbar.
Ein weiteres Risiko ist der sogenannte Jurisdiktions-Bias: Sprache ist nicht gleich Rechtssystem. Ein deutsches „Treu und Glauben“ ist konzeptuell etwas anderes als das amerikanische „good faith“. LCMs, die beide Begriffe im Embedding-Raum eng zusammenlegen, könnten diese Unterschiede verwischen. Mit potenziell gravierenden Folgen für die Auslegung.
Viele Rechtsbegriffe sind bewusst unscharf (unbestimmte Rechtsbegriffe). Wenn LCMs diese in feste Konzept-Vektoren pressen, verlieren wir die produktive Ambiguität des Rechts. LCM könnten auf diese Weise das Ende der juristischen Hermeneutik einläuten.
LCMs werden auf Mehrheitsmeinungen trainiert. Innovative oder abweichende Rechtsauffassungen (die oft Fortschritt bringen) könnten als „konzeptuell falsch“ klassifiziert werden.

Kurzum, LCMs können viel, aber sie sind keine Selbstläufer. Wer ihre Stärken nutzen will, muss die organisatorischen Hausaufgaben gemacht haben und die technischen Grenzen kennen.

Aktuell eignen sich LCMs besonders für den konzeptuellen Abgleich und die inhaltliche Strukturierung von Informationen. Wer jedoch auf tiefgehende Detailanalysen oder hochspezialisierte Rechtsgebiete angewiesen ist, sollte mit Pilotprojekten klein anfangen und Ergebnisse eng kontrollieren. Die Technologie ist bereit für Experimente, aber noch nicht für den unbeaufsichtigten Einsatz.16

III. Compliance-Anwendungsfelder

Drei Szenarien zeigen, wo der Unterschied zu heutigen Werkzeugen liegt und warum sich die Vorbereitung lohnt.

1. Regelwerksanalyse und -abgleich

Stellen Sie sich vor, Sie laden eine neue EU-Verordnung in Ihr System. Ohne dass der Begriff „Interessenkonflikt“ wortwörtlich vorkommt, erkennt das LCM, dass eine Regelung inhaltlich genau dieses Risiko adressiert und markiert, welche internen Richtlinien davon betroffen sind. Das Modell gleicht nicht nur Texte ab, sondern Konzepte: Es versteht, dass „conflict of interest“ und „Interessenkonflikt“ dasselbe juristische Konstrukt meinen, selbst bei unterschiedlicher sprachlicher Ausgestaltung. Wer bereits einen klaren internen Begriffskatalog nach ISO 37301 führt, kann auch mit einem LLM schnell ähnliche Formulierungen finden. Aber: LLMs brauchen eine hohe sprachliche Nähe, LCMs nicht. Sie finden auch umschriebene oder indirekt formulierte Inhalte.

2. Ermittlungsakten- und Urteilsanalyse

Sie haben eine 1.000-seitige Ermittlungsakte auf dem Tisch. Innerhalb von Sekunden markiert das LCM alle Passagen, in denen ein Organisationsverschulden nach § 130 OWiG erörtert wird, auch wenn in den einzelnen Dokumenten ganz unterschiedliche Formulierungen verwendet werden. Mit gezielten Suchbegriffen und Kontextvorgaben kann natürlich auch ein LLM relevante Textstellen finden. Aber LLMs neigen dazu, Synonyme oder umschriebene Sachverhalte zu übersehen. LCMs reduzieren diese Lücke deutlich, weil sie auf der Ebene des Rechtsgedankens arbeiten.

3. Kontinuierliches Compliance-Monitoring

Ein Gesetzgeber ändert die Vorschriften zu „Sorgfaltspflichten“ im Auslandsgeschäft. Noch bevor Sie die Details lesen, meldet das LCM: „Diese Änderung betrifft Ihre Lieferkettenprozesse“, obwohl der Begriff „Lieferkette“ im Gesetzestext gar nicht vorkommt. Das Modell erkennt inhaltliche Änderungen in Gesetzen, Verwaltungsvorschriften oder Urteilen und ordnet sie automatisch den relevanten internen Vorschriften zu. Auch ohne gemeinsame Schlüsselwörter. Ein LLM kann zwar grundsätzlich Änderungen in Texten aufspüren, wenn die Terminologie konstant bleibt oder nur leicht variiert. Für tiefergehende semantische Erkennung ist die LCM-Architektur erforderlich.

4. Weitere Einsatzmöglichkeiten

LCMs könnten auch als „Compliance-Dialekte-Detektoren“ dienen. Jedes Unternehmen entwickelt im Laufe der Zeit eine eigene Fachsprache, ein Automobilzulieferer versteht unter „Lieferkettenrisiko“ oft etwas anderes als ein Pharmahersteller. Ein LCM kann diese unternehmensspezifischen Konzept-Varianten sichtbar machen und so helfen, Compliance-Kulturen zu harmonisieren, etwa bei M&A-Transaktionen oder in Konzernverbünden.

Ein unkonventioneller, aber vielversprechender weiterer Einsatz: LCMs könnten alte Archivbestände durchsuchen und Konzepte aufspüren, die damals anders verstanden wurden, heute aber haftungsrelevant sind, etwa frühere Umweltauflagen, die konzeptionell zu aktuellen ESG-Pflichten passen. Risikoanalysen werden also einfacher.

Dazu muss man aber weiterdenken. Wer seine Datenbasis und Begriffssysteme schon jetzt LCM-tauglich aufstellt, kann später nahtlos umsteigen und bis dahin auch mit heutigen LLMs präzisere Ergebnisse erzielen.

IV. Strategische Implikationen für Compliance

Derzeit finden sich Large Concept Models noch in keinem marktüblichen Compliance-Tool. Anbieter wie Libra (USA) oder beck-nexu / Noxtua (Deutschland) setzen weiterhin auf LLM-Architekturen. Die ersten LCM-Prototypen sind technisch spannend, aber noch nicht juristisch breit erprobt. Selbst unter günstigen Bedingungen dürfte es ein bis drei Jahre dauern, bis marktreife Implementierungen in der Compliance-Praxis ankommen.

Hinzu kommt eine gewisse Marktdynamik mit Risiken. Es ist denkbar, dass Anbieter bestehender Plattformen LCM-Funktionalität nur innerhalb proprietärer Ökosysteme anbieten oder Integrationen verzögern, um bestehende Produktlinien zu schützen (also: Vendor-Lock-in). Compliance-Module haben zudem bei vielen KI-Anbietern nicht die höchste Entwicklungspriorität; Ressourcen fließen häufig in lukrativere Anwendungsfelder wie Marketing oder Kundenservice. Schließlich können regulatorische Vorgaben, vom Datenschutzrecht (Art. 32 DSGVO) bis zum EU-AI-Act, die Einführung in regulierten Branchen verlangsamen.17

Gerade deshalb liegt der strategische Hebel nicht in einer vorschnellen Lizenzbestellung, sondern in der Vorbereitung Ihrer eigenen Grundlagen. Diese Hausaufgaben kosten Zeit, bringen aber sofort Mehrwert. Auch mit heutigen LLMs.18

Unternehmen, die ihre Compliance-Datenbestände bereits heute LCM-kompatibel strukturieren, sichern sich einen doppelten Vorteil: Sie steigern sofort die Präzision bestehender LLM-Anwendungen und schaffen die Grundlage für eine schnelle, reibungslose Integration von LCMs bei Marktreife. Im Haftungsfall lässt sich so belegen, dass die Risikoidentifikation auf einer nachvollziehbaren, methodisch plausiblen Grundlage erfolgt – ein Aspekt, der die Beurteilung der „gehörigen Aufsicht“ (§ 130 OWiG) entscheidend beeinflussen kann.

Gerade weil LCMs noch im Forschungsstadium sind, ist jetzt der richtige Zeitpunkt, organisatorische und begriffliche Grundlagen zu schaffen, die später genutzt werden können. Dazu gehören

präzise Definition zentraler Compliance-Begriffe (etwa ISO 37301:2021, Ziff. 6.1),
ein belastbares Pflichtenkataster (vgl. IDW PS 980, Tz. 22 ff.),
konsistente interne Konzept- und Datenstrukturen.

Wer diese Vorarbeit versäumt, wird bei marktreifen LCMs nur eingeschränkt profitieren.

V. Wie geht es weiter?

Die Entwicklung von LCMs steht heute dort, wo LLMs vor wenigen Jahren standen, nur dass sich das Tempo dramatisch erhöht hat.19

Forschungsergebnisse, die jetzt als Prototypen erscheinen, könnten zwar in zwölf Monaten in ersten produktiven Anwendungen ankommen. Die Realität ist aber: LCMs werden nicht über Nacht zum Marktstandard. Manche Anbieter setzen weiter auf LLM-Architekturen, manche werden Funktionen nur selektiv anbieten. Es ist also keineswegs sicher, dass wir in wenigen Monaten flächendeckend mit LCMs arbeiten. Unternehmen aber, die heute ihre zentralen Konzepte, Datenstrukturen und ersten Pilotprojekte vorbereiten, werden im Vorteil sein. Sie werden schneller adaptieren, regulatorische Anforderungen proaktiv erfüllen und im Streitfall belegen können, dass sie die „gehörige Aufsicht“ (i. S. d. § 130 OWiG) vorausschauend ausgestaltet haben.

Die Zukunft der Legal-KI ist nicht nur generativ. Sie ist konzeptionell. Und sie beginnt mit der Entscheidung, ob man Zuschauer bleibt oder die eigenen Strukturen so vorbereitet, dass sie das Potenzial der nächsten Technologiegeneration voll ausschöpfen.

VI. Denkanstöße

LCMs könnten zu einem Faktor werden, der das Spielfeld wirklich verändert und die LLMs wie Kinderspiele aussehen lässt. Für die weitere Diskussion daher noch vier Perspektiven, um mögliche Folgen aufzuzeigen:

Konzept-Souveränität als neue Machtfrage. Wer bestimmt eigentlich, was ein „Konzept“ ist? Wenn Metas SONAR-Embeddings zum Quasi-Standard werden, prägen sie implizit, wie Begriffe wie „Organisationsverschulden“ oder „Sorgfaltspflicht“ maschinell verstanden werden. Das ist eine subtile Form von Definitionsmacht. Vergleichbar mit der Rolle, die Google einst bei der Frage spielte, was „relevant“ im Internet ist. Unternehmen sollten prüfen, ob sie eigene Konzept-Embeddings trainieren, um ihre juristische Deutungshoheit zu sichern.
Das Konzept-Aging-Problem. Rechtsbegriffe verändern sich schleichend. „Datenschutz“ bedeutete 1990 etwas anderes als 2024. LCMs, die auf älteren Embeddings trainiert wurden, könnten überholte Konzeptverständnisse konservieren. Wie aktualisiert man ein Konzept-Embedding, ohne die historische Rechtskontinuität zu verlieren, und ohne, dass vergangene Rechtsauffassungen komplett verschwinden?
Trojanisches Pferd für Legal-Tech-Monopole. Wer die Embeddings kontrolliert, kontrolliert die juristische KI. Große Tech-Konzerne könnten über „hilfreiche“ LCM-Tools schleichend die Rechtsauslegung standardisieren. Für Unternehmen wird Konzept-Pluralismus strategisch wichtig, bewusst unterschiedliche LCM-Embeddings für verschiedene Rechtsbereiche und Akteure. In Zeiten, in denen KI von Konzernen, weniger von rechtsstaatlichen Strukturen, gelenkt wird, mag das auch zur Gefahr werden.
Die technische Gleichschaltung der Rechtsinterpretation. Wenn Legislative, Exekutive und Judikative alle dieselben LCM-Embeddings nutzen, droht eine stille Angleichung der Rechtsinterpretation.

Dr. Tobias Eggers, ist Partner der Dortmunder Boutique für Unternehmensstrafrecht PARK | Wirtschaftsstrafrecht. Er verantwortet dort die Dezernate für Wettbewerbsstrafrecht sowie Internationales Strafrecht und leitet die Praxisgruppe Compliance.

Brynjolfsson/McAfee, The Second Machine Age, 1. Aufl. 2014.

Disruptiv, wie Mehul Gupta meint in: „Meta large concept models (lcm): End of llms?“, https://medium.com/data-science-in-your-pocket/meta-large-concept-models-lcm-end-of-llms-68cb0c5cd5cf, letzter Aufruf: 9. 8. 2025.

Brown et al., Language Models are Few-Shot Learners, 2020, arXiv:2005. 14165.

Ausführliche Erläuterung bei Ashish
Bamaniah, „Meta’s large concept models (lcms) are here to challenge and redefine llms“, https://levelup.gitconnected.com/metas-large-concept-models-lcms-are-here-to-challenge-and-redefine-llms-7f9778f88a87, letzter Aufruf: 9. 8. 2025.

Ausführlich: Ganesh
Raju, „The next evolution of ai: Trading tokens for concepts -large concept models,“ https://www.linkedin.com/pulse/next-evolution-a17i-trading-tokens-concepts-large-concept-ganesh-raju-cdgwc, letzter Aufruf: 9. 8. 2025.

Ahmad/Goel, The Future of AI, arXiv:2501. 05487, 2025, Abb. 2.

Lance
Eliot schreibt „Ai is breaking free of token-based llms by upping the ante to large concept models that devour sentences and adore concepts,“ https://www.forbes.com/sites/lanceeliot/2025/01/06/ai-is-breaking-free-of-token-based-llms-by-upping-the-ante-to-large-concept-models-that-devour-sentences-and-adore-concepts, letzter Aufruf: 9. 8. 2025.

Ahmad/Goel (Fn. 6), Table IV.

Barrault et al., Large Concept Models: Language Modeling in a Sentence Representation Space, 2024, https://arxiv.org/abs/2412.08821.

Im Einzelnen: Ahmad/ Goel, The Future of AI: Exploring the Potential of Large Concept Models, https://arxiv.org/pdf/2501.05487.

Verständnisleitend unbedingt lesen: Zheng/Ning/Zhong/Chen/Chen/Guo/Wang/Wang, „Towards an understanding of large language models in software engineering tasks,“ Empirical Software Engineering, vol. 30, no. 2, p. 50, 2025.

Fan et al., SONAR-LLM: Hybrid Language and Concept Modeling, 2025, arXiv:2508. 05305.

Barrault et al. (Fn. 10), 2024.

Vgl. dazu: BeckOK OWiG, § 130 Rn. 44.

Ahmad/Goel (Fn. 6), S. 16 f. ergänzen weitere technische Limitierungen: 1) Konzeptgranularität: Zu grob definierte Konzepte führen zu unpräzisen Ergebnissen, zu feine Konzepte zu instabilen Vorhersagen. 2) Embedding-Mismatch: Unterschiedliche Quellen können semantische Repräsentationen desselben Begriffs leicht verschieben, was den Abgleich erschwert. 3) Generalisation Gaps: Auch LCMs können Schwierigkeiten haben, wenn sie Konzepte in Kontexten sehen, die stark von den Trainingsdaten abweichen.

Ein interessantes Problem: LCM könnten auch als kritische Strukturen eingestuft werden. Etwa, weil LCMs als Trojanisches Pferd für Legal-Tech-Monopole benutzt werden könnten. Wer die Konzept-Embeddings kontrolliert, kontrolliert die juristische KI. Große Tech-Konzerne könnten über „hilfreiche“ LCM-Tools schleichend die Rechtsauslegung standardisieren.

Zu denken ist an: a) Pflichten- und Konzeptinventur: ISO 37301 verpflichtet zur systematischen Ermittlung und Bewertung aller relevanten Compliance-Verpflichtungen (Ziff. 6.1). IDW PS 980 verlangt deren vollständige Dokumentation als Prüfungsgegenstand (Tz. 22 ff.). b) Strukturierte Pflege und Aktualisierung: Nur ein aktuelles, konsistentes Pflichtenkataster ermöglicht später eine effiziente LCM-Nutzung. c) Technologische Anschlussfähigkeit: Offene Modelle wie SONAR können in gesicherten internen Umgebungen erprobt werden, ohne Datenschutzrisiken durch externe Verarbeitung.

Ryan
McDonough, „Rethinking ai in legal tech: The role of large concept models,“ https://www.ryanmcdonough.co.uk/rethinking-ai-in-legal-tech-the-role-of-large-concept-models, letzter Aufruf: 9. 8. 2025; Swaroop
Piduguralla, „Rethinking language models: The emergence of large concept models,“ https://medium.com/@tejaswaroop2310/rethinking-language-models-the-emergence-of-large-concept-models-76746acfea13, letzter Aufruf: 8. 8. 2025.

Beitrag per E-Mail empfehlen

Auf LinkedIn teilen

Seite drucken