Dr. Tobias Eggers
Large Concept Models und die Bedeutung fĂŒr Legal-KI und Compliance
Die Entwicklung KĂŒnstlicher Intelligenz (KI) im Rechtsbereich verlĂ€uft nicht in gemĂ€chlichen Schritten, sondern in SprĂŒngen. Noch vor wenigen Jahren sprachen alle ĂŒber Large Language Models (LLMs) wie ChatGPT, Gemini oder Claude. Heute steigern diese Systeme ihre LeistungsfĂ€higkeit so schnell, dass Fachleute von einer âKapazitĂ€tsverdopplung pro Quartalâ sprechen.1 Mit den sogenannten Large Concept Models (LCMs) beginnt nun eine neue Phase:2 WĂ€hrend LLMs Wörter und Satzteile wie Perlen an einer Kette aneinanderreihen, arbeiten LCMs mit ganzen Bedeutungsblöcken. Semantische Einheiten, die wie fertige Gedankenpakete daherkommen. Das verĂ€ndert die Spielregeln: Stellen Sie sich vor, Sie lesen den Entwurf einer EU-Verordnung. Noch bevor Sie den Text ganz durchgearbeitet haben, meldet Ihr System: âAchtung! Der neue âSorgfaltspflichtâ-Tatbestand kollidiert mit Ihren internen Lieferketten-Regelungen.â Dabei taucht das Wort âLieferketteâ im Gesetz gar nicht auf. Ein LCM erkennt den inhaltlichen Zusammenhang trotzdem. Ein LLM könnte das nicht. FĂŒr die Compliance-Praxis ist das auch kein theoretischer Luxus. Es geht vielmehr um die FĂ€higkeit, Rechtsgedanken zu erkennen, zu vergleichen und in Beziehung zu setzen, statt sich allein auf sprachliche Muster zu verlassen.
I. Von LLM zu LCM: Ein konzeptueller Unterschied
1. Technische Unterschiede
LLMs wie GPT-5 oder Gemini 2.5 arbeiten wie geĂŒbte Texter: Sie ĂŒberlegen, welches Wort oder Satzzeichen als NĂ€chstes passt, und hĂ€ngen es an die bestehende Formulierung. Trainiert werden sie darauf, das wahrscheinlichste nĂ€chste Token vorherzusagen, basierend auf statistischen Mustern im Trainingsmaterial.3
LCMs hingegen denken in gröĂeren Einheiten. Sie behandeln nicht einzelne Wörter, sondern ganze Konzepte, inhaltlich abgeschlossene Gedanken, wie âTĂ€uschungsabsichtâ oder âOrganisationsverschuldenâ.4 Diese Konzepte speichern und verarbeiten sie in einem sogenannten Konzept-Embedding-Raum. Man kann sich das wie eine Landkarte vorstellen, auf der juristisch verwandte Ideen dicht beieinanderliegen. Und das unabhĂ€ngig von Sprache oder Formulierung.
Technisch ist das ein Bruch mit dem LLM-Prinzip: Semantische Embedding-Techniken gibt es zwar schon lĂ€nger (BERT, Sentence-BERT, Vektorsearch), neu ist jedoch die Verbindung dieser ReprĂ€sentationen mit einer autoregressiven Konzeptprognose.5 Das Modell sagt nicht einfach das nĂ€chste Wort vorher, sondern den nĂ€chsten inhaltlichen Gedanken und ĂŒbersetzt diesen erst danach in Sprache. Dadurch werden die Modelle robuster gegenĂŒber Formulierungsvielfalt. Synonyme, Paraphrasen oder juristische Umschreibungen werden als dasselbe Konzept erkannt. Es gibt auch weniger AbhĂ€ngigkeit von SchlĂŒsselwörtern.
Der LCM-Workflow hat drei Kernmodule: Concept Encoder, LCM Core und Concept Decoder.6 Der Concept Encoder transformiert Eingaben. Text, gegebenenfalls multimodale Inhalte, in hochdimensionale Konzept-Embeddings. Der LCM Core verarbeitet diese Embeddings hierarchisch und plant die nĂ€chste semantische Einheit, bevor Sprache ĂŒberhaupt erzeugt wird. Der Concept Decoder ĂŒbersetzt die gewĂ€hlte KonzeptreprĂ€sentation zurĂŒck in sprachliche Form. Diese modulare Architektur erhöht die Robustheit gegenĂŒber Formulierungsvarianten und unterstĂŒtzt hierarchisches Reasoning, bei dem juristische Konzepte in logischen AbhĂ€ngigkeiten verarbeitet werden.
Das ist keine bloĂe technische Verfeinerung, sondern eine methodische ZĂ€sur.7 Es eröffnet die Möglichkeit, juristische Inhalte unabhĂ€ngig von ihrer sprachlichen Verpackung zu identifizieren, zu vergleichen und zu verknĂŒpfen. Eine FĂ€higkeit, die in der Praxis bisher oft an der SprachoberflĂ€che stecken blieb.
2. LCM vs. LLM in der Anwendung
Viele Compliance-Verantwortliche arbeiten heute bereits mit LLMs, sei es, um Richtlinien zu durchsuchen, Passagen zusammenzufassen oder schnelle Recherchen durchzufĂŒhren. Mit den richtigen Prompts und Erweiterungen wie Retrieval-Augmented Generation (RAG) oder semantischer Vektorsuche können auch diese Systeme inhaltliche ZusammenhĂ€nge erkennen. Der entscheidende Unterschied: Bei LLMs entsteht die semantische Analyse nachtrĂ€glich. Das Modell erzeugt oder bewertet Text auf Token-Basis und greift dann ĂŒber externe Embedding-Verfahren (fehleranfĂ€llig) auf semantische Relationen zu. LCMs hingegen arbeiten von Beginn an in einem Konzept-Embedding-Raum und prognostizieren direkt die nĂ€chste semantische Einheit. Die inhaltliche Abstraktion ist hier nicht ein Zusatzschritt, sondern das Herz des Modells.
LCMs sind eher in der Lage, neu eingefĂŒhrte Regelungskonzepte korrekt einzuordnen, selbst wenn diese im Training nicht explizit vorkamen.8 FĂŒr komplexe, mehrsprachige und inhaltlich variantenreiche Norm- und Richtlinienlandschaften ist das ein qualitativer Sprung.
- Konzeptueller Abgleich trotz unterschiedlicher Terminologie, das kann nur das LCM. Stellen Sie sich vor, der Gesetzgeber fĂŒhrt einen neuen âSorgfaltspflichtâ-Tatbestand ein. Ein LLM findet dazu alle Dokumente, in denen Ă€hnliche Worte vorkommen. Ein LCM erkennt zusĂ€tzlich, dass diese Pflicht inhaltlich mit bestehenden Lieferketten-Regelungen kollidiert, auch wenn in den internen Dokumenten das Wort âLieferketteâ nie steht.
- Mehrsprachige KonzeptverknĂŒpfung. Das kann auch nur das LCM. Ein französisches Gerichtsurteil liegt vor. Ohne Ăbersetzung weist ein LCM es automatisch dem deutschen Compliance-Risikobereich âInteressenkonfliktâ zu, weil es das dahinterliegende Konzept erkennt. Es geht eben um mehr als eine Ăbersetzung.
- Queranalysen ĂŒber Dokumenttypen hinweg. Ebenfalls nur beim LCM. Das System kann ein Urteil, eine interne Arbeitsanweisung und einen Vertrag inhaltlich miteinander verknĂŒpfen und so RegelungswidersprĂŒche sichtbar machen.
- Auch mit LLM und guter Datenbasis erreichbar: Wer bereits einen klar definierten internen Begriffskatalog nach ISO 37301 pflegt, kann mit LLMs ebenfalls bessere Suchergebnisse und Analysen erzielen. Unterschied: LLMs benötigen dafĂŒr eine hohe sprachliche NĂ€he; LCMs nicht.9 Und sie sind viel langsamer als LCMs.
II. Technologische Grundlagen
Um die sich daraus ergebenden Möglichkeiten richtig einzuordnen, lohnt sich ein Blick darauf, wo LCMs heute stehen. Welche Architekturvarianten gibt es, und welche technischen Grenzen sind bislang noch nicht ĂŒberwunden?
1. Large Concept Models, Stand der Forschung
Die Geburtsstunde der LCM-Forschung schlug im Dezember 2024: Meta AI veröffentlichte den ersten Prototypen eines Large Concept Model.10 Dieses Modell arbeitet im SONAR-Embedding-Space, einem mehrsprachigen, hochdimensionalen Bedeutungsraum, der Konzepte aus ĂŒber 200 Sprachen nebeneinanderlegt. Man kann sich das vorstellen wie eine juristische Weltkarte, auf der gleichbedeutende Rechtsbegriffe, egal aus welchem Sprachraum, eng beieinanderliegen.
Das Neue daran ist nicht nur die Architektur, sondern auch die Art, wie das Modell denkt:11 Erste Tests zeigen, dass dieser Ansatz in Zero-Shot-Aufgaben, also ohne Spezialtraining, bei sprachĂŒbergreifenden Vergleichsaufgaben bereits jetzt deutlich prĂ€ziser arbeitet als klassische LLMs.12
Nur wenige Monate spĂ€ter, im August 2025, folgte der nĂ€chste Schritt: SONAR-LLM.13 Dieses Hybridmodell verbindet die semantische Tiefe eines LCM mit der StabilitĂ€t und Skalierbarkeit tokenbasierter Trainingsverfahren. FĂŒr die Praxis bedeutet das: ein besserer Umgang mit langen Kontexten, ohne den konzeptuellen Vorteil aufzugeben.
Parallel dazu gewinnt ein weiterer Forschungsstrang an Bedeutung: Neuro-Symbolic AI. Hier werden neuronale Modelle wie LCMs mit regelbasierten Systemen kombiniert (Ontologien, Wissensgraphen, formale Logik). Ziel ist es, maschinelle Mustererkennung mit einer transparenten, prĂŒfbaren BegrĂŒndungsschicht zu verbinden. Gerade fĂŒr Compliance-Systeme, die im Streitfall vor Behörden oder Gerichten standhalten mĂŒssen, könnte das ein entscheidender Baustein sein.
Die Entwicklung verlĂ€uft rasant. Von der Grundlagenarchitektur ĂŒber hybride AnsĂ€tze bis hin zur Integration in erklĂ€rbare KI-Systeme. Doch so beeindruckend die Fortschritte sind: Die Modelle sind noch jung, und ihr Potenzial muss in juristischen Szenarien erst noch unter Beweis gestellt werden.
2. Technologische Treiber und strategische Relevanz
Warum sollten sich Compliance-Verantwortliche schon jetzt mit LCMs beschÀftigen, obwohl die Technologie noch im Laborstadium steckt? Drei Entwicklungen drÀngen sich hier auf:
- Meta hat nicht nur ĂŒber LCMs geschrieben, sie haben vielmehr den Quellcode und die SONAR-Embeddings frei zugĂ€nglich gemacht.14 FĂŒr Unternehmen bedeutet das: Sie können in gesicherten internen Umgebungen eigene Pilotprojekte starten, ohne vertrauliche Daten an externe Plattformen zu geben. In Zeiten, in denen Datenschutz (Art. 32 DSGVO) und GeschĂ€ftsgeheimnisschutz (§ 2 GeschGehG) oberste PrioritĂ€t haben, ist das ein strategischer Vorteil.
- WĂ€hrend sich neue LLM-Generationen teilweise ĂŒber ein Jahr Zeit lassen, erscheinen LCM-Iterationen und Hybride wie SONAR-LLM im Monatsrhythmus. Wer seine Begriffssysteme und Pflichtenkataster nach ISO 37301 (Ziff. 6.1) und IDW PS 980 (Tz. 22 ff.) aktuell hĂ€lt, ist in der Lage, solche Neuerungen sofort produktiv zu testen.
- Die Verbindung von LCMs mit regelbasierten Systemen könnte der SchlĂŒssel zu âerklĂ€rbarer KIâ im Rechtsbereich sein. Ein LCM erkennt ein Konzept, das regelbasierte Modul prĂŒft es auf juristische Konsistenz und dokumentiert die BegrĂŒndung. Eine Arbeitsweise, die der in § 130 OWiG geforderten âgehörigen Aufsichtâ sehr nahekommt.15 Diese Treiber sorgen fĂŒr Zeitdruck. Wer erst reagiert, wenn LCMs flĂ€chendeckend in Produkten verfĂŒgbar sind, verliert den Vorsprung bei der internen Vorbereitung, und muss die wichtigsten konzeptionellen Hausaufgaben schnell nachholen.
3. Technische Limitierungen der ersten LCM-Generation
So vielversprechend die Entwicklung von LCMs ist, die ersten Generationen zeigen klare Grenzen, die man kennen sollte, bevor man sie in Compliance-Szenarien einplant.
- In Tests neigen die Modelle zu kĂŒrzeren Ausgaben. Komplexe juristische Argumentationsketten, die sich ĂŒber viele AbsĂ€tze ziehen, bringen sie schneller an ihre Grenzen als ein gut optimiertes LLM. FĂŒr umfangreiche SchriftsĂ€tze oder verschachtelte Rechtsgutachten bedeutet das: Nacharbeit durch den Menschen bleibt Pflicht.
- LCMs verzichten bewusst auf die feine Token-Ebene, was ihre konzeptuelle StÀrke ausmacht. Der Preis: Sie sind weniger prÀzise, wenn es um sprachlich sehr feine Unterscheidungen geht, etwa bei Synonymen mit leicht unterschiedlichen juristischen Bedeutungen.
- Die bisher veröffentlichten LCMs basieren stark auf dem SONAR-Embedding-Raum. Das funktioniert hervorragend in Standardszenarien, kann aber bei Nischenthemen oder Spezialrechtsgebieten heiĂen: aufwendig nachtrainieren.
- Die meisten bisherigen Benchmarks stammen aus Sprachvergleichs- oder Ăbersetzungstests. GroĂangelegte juristische PrĂŒfungen, etwa auf Akten- oder Vertragskorpora, stehen noch aus.
- Regulatorisch gibt es zwei kritische Punkte. Erstens die ErklĂ€rbarkeit: Ein CMS muss methodisch nachvollziehbar sein (ISO 37301:2021, Ziff. 9.1; IDW PS 980). Reine Embedding-Prozesse sind oft zu intransparent. Zweitens die rechtlichen Rahmenbedingungen: Datenschutz durch Technikgestaltung und angemessene Sicherheit (Art. 32 DSGVO) sind Pflicht, und die Aufsichtsverantwortung der Unternehmensleitung bleibt unĂŒbertragbar.
- Ein weiteres Risiko ist der sogenannte Jurisdiktions-Bias: Sprache ist nicht gleich Rechtssystem. Ein deutsches âTreu und Glaubenâ ist konzeptuell etwas anderes als das amerikanische âgood faithâ. LCMs, die beide Begriffe im Embedding-Raum eng zusammenlegen, könnten diese Unterschiede verwischen. Mit potenziell gravierenden Folgen fĂŒr die Auslegung.
- Viele Rechtsbegriffe sind bewusst unscharf (unbestimmte Rechtsbegriffe). Wenn LCMs diese in feste Konzept-Vektoren pressen, verlieren wir die produktive AmbiguitÀt des Rechts. LCM könnten auf diese Weise das Ende der juristischen Hermeneutik einlÀuten.
- LCMs werden auf Mehrheitsmeinungen trainiert. Innovative oder abweichende Rechtsauffassungen (die oft Fortschritt bringen) könnten als âkonzeptuell falschâ klassifiziert werden.
Kurzum, LCMs können viel, aber sie sind keine SelbstlÀufer. Wer ihre StÀrken nutzen will, muss die organisatorischen Hausaufgaben gemacht haben und die technischen Grenzen kennen.
Aktuell eignen sich LCMs besonders fĂŒr den konzeptuellen Abgleich und die inhaltliche Strukturierung von Informationen. Wer jedoch auf tiefgehende Detailanalysen oder hochspezialisierte Rechtsgebiete angewiesen ist, sollte mit Pilotprojekten klein anfangen und Ergebnisse eng kontrollieren. Die Technologie ist bereit fĂŒr Experimente, aber noch nicht fĂŒr den unbeaufsichtigten Einsatz.16Â
III. Compliance-Anwendungsfelder
Drei Szenarien zeigen, wo der Unterschied zu heutigen Werkzeugen liegt und warum sich die Vorbereitung lohnt.
1. Regelwerksanalyse und -abgleich
Stellen Sie sich vor, Sie laden eine neue EU-Verordnung in Ihr System. Ohne dass der Begriff âInteressenkonfliktâ wortwörtlich vorkommt, erkennt das LCM, dass eine Regelung inhaltlich genau dieses Risiko adressiert und markiert, welche internen Richtlinien davon betroffen sind. Das Modell gleicht nicht nur Texte ab, sondern Konzepte: Es versteht, dass âconflict of interestâ und âInteressenkonfliktâ dasselbe juristische Konstrukt meinen, selbst bei unterschiedlicher sprachlicher Ausgestaltung. Wer bereits einen klaren internen Begriffskatalog nach ISO 37301 fĂŒhrt, kann auch mit einem LLM schnell Ă€hnliche Formulierungen finden. Aber: LLMs brauchen eine hohe sprachliche NĂ€he, LCMs nicht. Sie finden auch umschriebene oder indirekt formulierte Inhalte.
2. Ermittlungsakten- und Urteilsanalyse
Sie haben eine 1.000-seitige Ermittlungsakte auf dem Tisch. Innerhalb von Sekunden markiert das LCM alle Passagen, in denen ein Organisationsverschulden nach § 130 OWiG erörtert wird, auch wenn in den einzelnen Dokumenten ganz unterschiedliche Formulierungen verwendet werden. Mit gezielten Suchbegriffen und Kontextvorgaben kann natĂŒrlich auch ein LLM relevante Textstellen finden. Aber LLMs neigen dazu, Synonyme oder umschriebene Sachverhalte zu ĂŒbersehen. LCMs reduzieren diese LĂŒcke deutlich, weil sie auf der Ebene des Rechtsgedankens arbeiten.
3. Kontinuierliches Compliance-Monitoring
Ein Gesetzgeber Ă€ndert die Vorschriften zu âSorgfaltspflichtenâ im AuslandsgeschĂ€ft. Noch bevor Sie die Details lesen, meldet das LCM: âDiese Ănderung betrifft Ihre Lieferkettenprozesseâ, obwohl der Begriff âLieferketteâ im Gesetzestext gar nicht vorkommt. Das Modell erkennt inhaltliche Ănderungen in Gesetzen, Verwaltungsvorschriften oder Urteilen und ordnet sie automatisch den relevanten internen Vorschriften zu. Auch ohne gemeinsame SchlĂŒsselwörter. Ein LLM kann zwar grundsĂ€tzlich Ănderungen in Texten aufspĂŒren, wenn die Terminologie konstant bleibt oder nur leicht variiert. FĂŒr tiefergehende semantische Erkennung ist die LCM-Architektur erforderlich.
4. Weitere Einsatzmöglichkeiten
LCMs könnten auch als âCompliance-Dialekte-Detektorenâ dienen. Jedes Unternehmen entwickelt im Laufe der Zeit eine eigene Fachsprache, ein Automobilzulieferer versteht unter âLieferkettenrisikoâ oft etwas anderes als ein Pharmahersteller. Ein LCM kann diese unternehmensspezifischen Konzept-Varianten sichtbar machen und so helfen, Compliance-Kulturen zu harmonisieren, etwa bei M&A-Transaktionen oder in KonzernverbĂŒnden.
Ein unkonventioneller, aber vielversprechender weiterer Einsatz: LCMs könnten alte ArchivbestĂ€nde durchsuchen und Konzepte aufspĂŒren, die damals anders verstanden wurden, heute aber haftungsrelevant sind, etwa frĂŒhere Umweltauflagen, die konzeptionell zu aktuellen ESG-Pflichten passen. Risikoanalysen werden also einfacher.
Dazu muss man aber weiterdenken. Wer seine Datenbasis und Begriffssysteme schon jetzt LCM-tauglich aufstellt, kann spÀter nahtlos umsteigen und bis dahin auch mit heutigen LLMs prÀzisere Ergebnisse erzielen.
IV. Strategische Implikationen fĂŒr Compliance
Derzeit finden sich Large Concept Models noch in keinem marktĂŒblichen Compliance-Tool. Anbieter wie Libra (USA) oder beck-nexu / Noxtua (Deutschland) setzen weiterhin auf LLM-Architekturen. Die ersten LCM-Prototypen sind technisch spannend, aber noch nicht juristisch breit erprobt. Selbst unter gĂŒnstigen Bedingungen dĂŒrfte es ein bis drei Jahre dauern, bis marktreife Implementierungen in der Compliance-Praxis ankommen.
Hinzu kommt eine gewisse Marktdynamik mit Risiken. Es ist denkbar, dass Anbieter bestehender Plattformen LCM-FunktionalitĂ€t nur innerhalb proprietĂ€rer Ăkosysteme anbieten oder Integrationen verzögern, um bestehende Produktlinien zu schĂŒtzen (also: Vendor-Lock-in). Compliance-Module haben zudem bei vielen KI-Anbietern nicht die höchste EntwicklungsprioritĂ€t; Ressourcen flieĂen hĂ€ufig in lukrativere Anwendungsfelder wie Marketing oder Kundenservice. SchlieĂlich können regulatorische Vorgaben, vom Datenschutzrecht (Art. 32 DSGVO) bis zum EU-AI-Act, die EinfĂŒhrung in regulierten Branchen verlangsamen.17
Gerade deshalb liegt der strategische Hebel nicht in einer vorschnellen Lizenzbestellung, sondern in der Vorbereitung Ihrer eigenen Grundlagen. Diese Hausaufgaben kosten Zeit, bringen aber sofort Mehrwert. Auch mit heutigen LLMs.18
Unternehmen, die ihre Compliance-DatenbestĂ€nde bereits heute LCM-kompatibel strukturieren, sichern sich einen doppelten Vorteil: Sie steigern sofort die PrĂ€zision bestehender LLM-Anwendungen und schaffen die Grundlage fĂŒr eine schnelle, reibungslose Integration von LCMs bei Marktreife. Im Haftungsfall lĂ€sst sich so belegen, dass die Risikoidentifikation auf einer nachvollziehbaren, methodisch plausiblen Grundlage erfolgt â ein Aspekt, der die Beurteilung der âgehörigen Aufsichtâ (§ 130 OWiG) entscheidend beeinflussen kann.
Gerade weil LCMs noch im Forschungsstadium sind, ist jetzt der richtige Zeitpunkt, organisatorische und begriffliche Grundlagen zu schaffen, die spÀter genutzt werden können. Dazu gehören
- prÀzise Definition zentraler Compliance-Begriffe (etwa ISO 37301:2021, Ziff. 6.1),
- ein belastbares Pflichtenkataster (vgl. IDW PS 980, Tz. 22 ff.),
- konsistente interne Konzept- und Datenstrukturen.
Wer diese Vorarbeit versÀumt, wird bei marktreifen LCMs nur eingeschrÀnkt profitieren.
V. Wie geht es weiter?
Die Entwicklung von LCMs steht heute dort, wo LLMs vor wenigen Jahren standen, nur dass sich das Tempo dramatisch erhöht hat.19
Forschungsergebnisse, die jetzt als Prototypen erscheinen, könnten zwar in zwölf Monaten in ersten produktiven Anwendungen ankommen. Die RealitĂ€t ist aber: LCMs werden nicht ĂŒber Nacht zum Marktstandard. Manche Anbieter setzen weiter auf LLM-Architekturen, manche werden Funktionen nur selektiv anbieten. Es ist also keineswegs sicher, dass wir in wenigen Monaten flĂ€chendeckend mit LCMs arbeiten. Unternehmen aber, die heute ihre zentralen Konzepte, Datenstrukturen und ersten Pilotprojekte vorbereiten, werden im Vorteil sein. Sie werden schneller adaptieren, regulatorische Anforderungen proaktiv erfĂŒllen und im Streitfall belegen können, dass sie die âgehörige Aufsichtâ (i. S. d. § 130 OWiG) vorausschauend ausgestaltet haben.
Die Zukunft der Legal-KI ist nicht nur generativ. Sie ist konzeptionell. Und sie beginnt mit der Entscheidung, ob man Zuschauer bleibt oder die eigenen Strukturen so vorbereitet, dass sie das Potenzial der nÀchsten Technologiegeneration voll ausschöpfen.
VI. DenkanstöĂe
LCMs könnten zu einem Faktor werden, der das Spielfeld wirklich verĂ€ndert und die LLMs wie Kinderspiele aussehen lĂ€sst. FĂŒr die weitere Diskussion daher noch vier Perspektiven, um mögliche Folgen aufzuzeigen:
- Konzept-SouverĂ€nitĂ€t als neue Machtfrage. Wer bestimmt eigentlich, was ein âKonzeptâ ist? Wenn Metas SONAR-Embeddings zum Quasi-Standard werden, prĂ€gen sie implizit, wie Begriffe wie âOrganisationsverschuldenâ oder âSorgfaltspflichtâ maschinell verstanden werden. Das ist eine subtile Form von Definitionsmacht. Vergleichbar mit der Rolle, die Google einst bei der Frage spielte, was ârelevantâ im Internet ist. Unternehmen sollten prĂŒfen, ob sie eigene Konzept-Embeddings trainieren, um ihre juristische Deutungshoheit zu sichern.
- Das Konzept-Aging-Problem. Rechtsbegriffe verĂ€ndern sich schleichend. âDatenschutzâ bedeutete 1990 etwas anderes als 2024. LCMs, die auf Ă€lteren Embeddings trainiert wurden, könnten ĂŒberholte KonzeptverstĂ€ndnisse konservieren. Wie aktualisiert man ein Konzept-Embedding, ohne die historische RechtskontinuitĂ€t zu verlieren, und ohne, dass vergangene Rechtsauffassungen komplett verschwinden?
- Trojanisches Pferd fĂŒr Legal-Tech-Monopole. Wer die Embeddings kontrolliert, kontrolliert die juristische KI. GroĂe Tech-Konzerne könnten ĂŒber âhilfreicheâ LCM-Tools schleichend die Rechtsauslegung standardisieren. FĂŒr Unternehmen wird Konzept-Pluralismus strategisch wichtig, bewusst unterschiedliche LCM-Embeddings fĂŒr verschiedene Rechtsbereiche und Akteure. In Zeiten, in denen KI von Konzernen, weniger von rechtsstaatlichen Strukturen, gelenkt wird, mag das auch zur Gefahr werden.
- Die technische Gleichschaltung der Rechtsinterpretation. Wenn Legislative, Exekutive und Judikative alle dieselben LCM-Embeddings nutzen, droht eine stille Angleichung der Rechtsinterpretation.
Dr. Tobias Eggers, ist Partner der Dortmunder Boutique fĂŒr Unternehmensstrafrecht PARK | Wirtschaftsstrafrecht. Er verantwortet dort die Dezernate fĂŒr Wettbewerbsstrafrecht sowie Internationales Strafrecht und leitet die Praxisgruppe Compliance.
Brynjolfsson/McAfee, The Second Machine Age, 1. Aufl. 2014.
Disruptiv, wie Mehul Gupta meint in: âMeta large concept models (lcm): End of llms?â, https://medium.com/data-science-in-your-pocket/meta-large-concept-models-lcm-end-of-llms-68cb0c5cd5cf, letzter Aufruf: 9. 8. 2025.
Brown et al., Language Models are Few-Shot Learners, 2020, arXiv:2005. 14165.
AusfĂŒhrliche ErlĂ€uterung bei Ashish
Bamaniah, âMetaâs large concept models (lcms) are here to challenge and redefine llmsâ, https://levelup.gitconnected.com/metas-large-concept-models-lcms-are-here-to-challenge-and-redefine-llms-7f9778f88a87, letzter Aufruf: 9. 8. 2025.
AusfĂŒhrlich: Ganesh
Raju, âThe next evolution of ai: Trading tokens for concepts -large concept models,â https://www.linkedin.com/pulse/next-evolution-a17i-trading-tokens-concepts-large-concept-ganesh-raju-cdgwc, letzter Aufruf: 9. 8. 2025.
Ahmad/Goel, The Future of AI, arXiv:2501. 05487, 2025, Abb. 2.
Lance
Eliot schreibt âAi is breaking free of token-based llms by upping the ante to large concept models that devour sentences and adore concepts,â https://www.forbes.com/sites/lanceeliot/2025/01/06/ai-is-breaking-free-of-token-based-llms-by-upping-the-ante-to-large-concept-models-that-devour-sentences-and-adore-concepts, letzter Aufruf: 9. 8. 2025.
Ahmad/Goel (Fn. 6), Table IV.
Ryan
McDonough, âRethinking ai in legal tech: The role of large concept models,â https://www.ryanmcdonough.co.uk/rethinking-ai-in-legal-tech-the-role-of-large-concept-models, letzter Aufruf: 9. 8. 2025.
Barrault et al., Large Concept Models: Language Modeling in a Sentence Representation Space, 2024, https://arxiv.org/abs/2412.08821.
Im Einzelnen: Ahmad/ Goel, The Future of AI: Exploring the Potential of Large Concept Models, https://arxiv.org/pdf/2501.05487.
VerstĂ€ndnisleitend unbedingt lesen: Zheng/Ning/Zhong/Chen/Chen/Guo/Wang/Wang, âTowards an understanding of large language models in software engineering tasks,â Empirical Software Engineering, vol. 30, no. 2, p. 50, 2025.
Fan et al., SONAR-LLM: Hybrid Language and Concept Modeling, 2025, arXiv:2508. 05305.
Barrault et al. (Fn. 10), 2024.
Vgl. dazu: BeckOK OWiG, § 130 Rn. 44.
Ahmad/Goel (Fn. 6), S. 16 f. ergĂ€nzen weitere technische Limitierungen: 1) KonzeptgranularitĂ€t: Zu grob definierte Konzepte fĂŒhren zu unprĂ€zisen Ergebnissen, zu feine Konzepte zu instabilen Vorhersagen. 2) Embedding-Mismatch: Unterschiedliche Quellen können semantische ReprĂ€sentationen desselben Begriffs leicht verschieben, was den Abgleich erschwert. 3) Generalisation Gaps: Auch LCMs können Schwierigkeiten haben, wenn sie Konzepte in Kontexten sehen, die stark von den Trainingsdaten abweichen.
Ein interessantes Problem: LCM könnten auch als kritische Strukturen eingestuft werden. Etwa, weil LCMs als Trojanisches Pferd fĂŒr Legal-Tech-Monopole benutzt werden könnten. Wer die Konzept-Embeddings kontrolliert, kontrolliert die juristische KI. GroĂe Tech-Konzerne könnten ĂŒber âhilfreicheâ LCM-Tools schleichend die Rechtsauslegung standardisieren.
Zu denken ist an: a) Pflichten- und Konzeptinventur: ISO 37301 verpflichtet zur systematischen Ermittlung und Bewertung aller relevanten Compliance-Verpflichtungen (Ziff. 6.1). IDW PS 980 verlangt deren vollstĂ€ndige Dokumentation als PrĂŒfungsgegenstand (Tz. 22 ff.). b) Strukturierte Pflege und Aktualisierung: Nur ein aktuelles, konsistentes Pflichtenkataster ermöglicht spĂ€ter eine effiziente LCM-Nutzung. c) Technologische AnschlussfĂ€higkeit: Offene Modelle wie SONAR können in gesicherten internen Umgebungen erprobt werden, ohne Datenschutzrisiken durch externe Verarbeitung.
Ryan
McDonough, âRethinking ai in legal tech: The role of large concept models,â https://www.ryanmcdonough.co.uk/rethinking-ai-in-legal-tech-the-role-of-large-concept-models, letzter Aufruf: 9. 8. 2025; Swaroop
Piduguralla, âRethinking language models: The emergence of large concept models,â https://medium.com/@tejaswaroop2310/rethinking-language-models-the-emergence-of-large-concept-models-76746acfea13, letzter Aufruf: 8. 8. 2025.




