Carolin Loy
KI-gestĂĽtzte Transkription von Videokonferenzen
Die Transkription von Videokonferenzen zählt heute zu den verbreitetsten praktischen Anwendungsfeldern von KI-Technologien in Unternehmen. Softwarelösungen erstellen nahezu in Echtzeit Mitschriften, strukturieren Inhalte, identifizieren Sprecherwechsel und ermöglichen eine bis vor wenigen Jahren unvorstellbare Effizienz in der Dokumentation. Für Unternehmen bedeutet dies erhebliche Vorteile, jedoch ergeben sich daraus auch datenschutz- sowie auch strafrechtliche Fragestellungen. Dieser Beitrag beleuchtet, wie eine KI-gestützte Transkription datenschutzrechtlich zulässig ausgestaltet werden kann, inwieweit die Interessenabwägung nach Art. 6 Abs. 1 lit. f DSGVO tragfähig ist und welche Rolle das für die strafrechtliche Befugnis spielt.
Ausgangslage
Moderne Transkriptionssysteme – gleich, ob in Videokonferenzdiensten integriert oder als eigenständige KI-Dienste angeboten – folgen im Kern demselben technischen Prinzip:
Das Gesprochene wird als Audiosignal erfasst und in sehr kurze Tonabschnitte zerlegt. Störgeräusche werden herausgefiltert, sodass nur relevante Sprachanteile verarbeitet werden. Anschließend wandeln KI-Modelle die gesprochenen Laute anhand trainierter Muster in Rohtext um. Dabei nutzen sie Kontext und Sprachregeln, um einen möglichst korrekten Text zu erzeugen. Zum Schluss wird das Transkript weiter aufbereitet, etwa durch Sprecherzuordnung, Strukturierung und thematische Analyse, und meist gespeichert, damit es später genutzt werden kann.
Für die datenschutzrechtliche Bewertung bedeutsam ist der Umstand, dass der technische Prozess der Transkription zwingend zumindest eine kurzfristige Aufzeichnung des gesprochenen Wortes erfordert – selbst dann, wenn der Anbieter das Audiosignal nicht dauerhaft speichert. Dies bedeutet, dass unabhängig von der konkreten Ausgestaltung des eingesetzten Systems stets eine Verarbeitung im Sinne von Art. 4 Nr. 2 DSGVO vorliegt. Es bedarf daher einer datenschutzrechtlichen Befugnis zur Verarbeitung.
Einwilligung
Häufig wird die Einwilligung als naheliegende Lösung betrachtet, da sie traditionell als Erlaubnistatbestand für Aufzeichnungen verstanden wird. Im Beschäftigungskontext fehlt es jedoch regelmäßig an der erforderlichen Freiwilligkeit, da Beschäftigte oft keine echte Wahlfreiheit haben, die Einwilligung zu verweigern, ohne berufliche Nachteile zu befürchten. Auch organisatorisch ist die Einwilligung problematisch: Sie müsste für jedes Meeting eingeholt, dokumentiert und widerruflich gestaltet werden. Bei großen oder spontan einberufenen Besprechungen ist das kaum umzusetzen. Diese Defizite und auch die strukturelle Ungeeignetheit der Einwilligung als Rechtsgrundlage sprechen für die Prüfung alternativer Erlaubnistatbestände.
Damit rückt vor allem die Prüfung nach Art. 6 Abs. 1 lit. f DSGVO – dem berechtigten Interesse – ins Zentrum.
Art. 6 Abs. 1 lit. f DSGVO
Hierfür ist nach ständiger Rechtsprechung des EuGH eine drei-stufige Prüfung vorzunehmen, bei der die Interessen des Verantwortlichen in Abwägung mit den Interessen, Grundrechten und Grundfreiheiten der betroffenen Personen zu bringen sind.
Berechtigtes Interesse
Auf der ersten Stufe ist zunächst ein berechtigtes Interesse des Verantwortlichen erforderlich. Aufgrund des sehr weiten Verständnisses kommen bei der KI-Transkription eine Vielzahl legitimer Interessen in Betracht:
- Effizienzsteigerung in der Kommunikation und Arbeitsorganisation
- Einhaltung von Compliance- und Dokumentationspflichten
- Nachweisführung bei Konfliktfällen
- Unternehmensinterne Schulungen
Insbesondere Aspekte der Teilhabe und Barrierefreiheit können hier aktiv gewichtet werden. KI-gestützte Transkriptionen ermöglichen es Personen mit Hörbeeinträchtigungen oder nicht-muttersprachlichen Teilnehmenden, Inhalte vollständig und auf für sie einfachere Weise nachzuvollziehen. Der Dienst trägt damit zur gleichberechtigten Teilnahme an beruflichen Kommunikationsprozessen bei und ist geeignet, strukturelle Benachteiligungen abzubauen.
Entscheidend ist, dass die Interessen klar definiert, rechtmäßig und gegenwärtig sind.
Erforderlichkeit
Auf der zweiten Stufe ist zu prüfen, ob die KI-gestützte Transkription von Videokonferenzen erforderlich ist, um das berechtigte Interesse zu erreichen. Nach der Rechtsprechung des EuGH (u.a. EuGH, Urt. v. 4.10.2024 – C-621/22) bedeutet dies, dass die Datenverarbeitung nicht nur nützlich im Hinblick auf das berechtigte Interesse sein darf, sondern tatsächlich erforderlich sein muss. Es darf demnach kein gleich geeignetes, ebenso wirksames Mittel geben, welches weniger eingriffsinvasiv ist.
In der Praxis sind daher mögliche Alternativen zu prüfen und zu dokumentieren, weshalb diese nicht in Betracht kommen. Im Bereich der KI-Transkription könnte bspw. die Erstellung manueller Protokolle, reine Ergebnisprotokolle oder selektive Mitschriften als Alternativen geprüft und mit den identifizierten Zielen verglichen werden.
Hierbei wäre zu erwägen, ob diese Alternativen tatsächlich gleich wirksam sind, da gerade bei langen und informationsdichten Besprechungen manuelle Dokumentationen fehleranfälliger und aufwendiger sind. In manchen Situationen, wie bspw. bei internationalen Teams oder Mitarbeitenden mit Hörbeeinträchtigungen kann die KI-Transkription sogar die einzige barrierefreie Form eines Protokolls darstellen.
Weiterhin kommt es auch auf die technische Gestaltung des konkret eingesetzten Tools an. Damit das Merkmal der Erforderlichkeit an dieser Stelle erfüllt ist, sollte die Eingriffsintensität so weit als möglich begrenzt werden. Das betrifft insbesondere die Speicherdauer und Zugriffsberechtigung. Eine Echtzeittranskription ohne dauerhafte Speicherung, sehr kurze Zwischenspeicherung von Audio und die sofortige Löschung nach Erstellung des Transkripts sollten hier auch unter Berücksichtigung von Art. 5 Abs. 1 lit. c DS-GVO dem Grundsatz der Datenminimierung, den Maßstab bilden.
Daneben müssen auch weitere Funktionen der KI, wie bspw. Tonlagenanalyse, sog. Meeting-Insights oder Sprecherprofiling deaktiviert werden. Diese sind regelmäßig nicht erforderlich, um die genannten berechtigten Interessen zu erfüllen. Sie stellen eigene Verarbeitungstätigkeiten dar, deren Rechtsgrundlage separat geprüft werden muss.
Auch sollte an dieser Stelle geprĂĽft werden, ob zur Erreichung des berechtigten Interesses eine Transkription jeder Videokonferenz erforderlich ist. Eine pauschale Daueraktivierung wird die ErforderlichkeitsprĂĽfung stets angreifbar machen.
Interessenabwägung
Sofern die Erforderlichkeit der Verarbeitung bejaht wird, folgt als nächster Prüfschritt die Interessenabwägung als Kernelement des Art. 6 Abs. 1 lit. f DSGVO.
Im Rahmen dieser Abwägung ist zunächst zu bestimmen, welche Arten personenbezogener Daten verarbeitet werden und welche Auswirkungen die Verarbeitung für die betroffenen Personen haben kann. Im beruflichen Kontext sind die Gesprächsinhalte regelmäßig berufs- oder geschäftsbezogen; gleichwohl lassen sich private Inhalte, etwa informeller Austausch zu Beginn eines Meetings, nicht vollständig ausschließen. Bestimmte Besprechungsformate mit potenziell sensiblen Inhalten, wie Personalgespräche, können jedoch durch interne Anweisungen generell von einer KI-gestützten Transkription ausgenommen werden, wodurch der Umfang der erfassten Inhalte gezielt begrenzt werden kann.
Dies unterstreicht zugleich die Bedeutung einer menschlichen Nachkontrolle der Transkripte, die sich nicht nur auf deren inhaltliche Richtigkeit erstreckt, sondern auch darauf, ob nicht erforderliche personenbezogene Daten – etwa private oder sensible Äußerungen wie z.B. Streitgespräche – erfasst wurden. Diese zeitnahe Nachkontrolle und Löschung solcher Inhalte müssen in einer Nutzungsanweisung oder Leitlinie verbindlich festgeschrieben werden.
Hinsichtlich der wahrscheinlichen Auswirkungen der Verarbeitung sind sowohl positive wie negative Effekte zu berücksichtigen. Zu den Vorteilen zählen eine verbesserte Dokumentation, eine erhöhte Barrierefreiheit sowie die Unterstützung von Compliance-Anforderungen. Demgegenüber stehen mögliche Eingriffe in die Kommunikations- und Privatsphäre der Teilnehmenden sowie die technische Übermittlung und Speicherung personenbezogener Daten – einschließlich der Stimme – an KI-Provider, insbesondere bei externen Lösungen. Mit einzubeziehen sind vorgesehene Schutzmaßnahmen, etwa eine minimierte und verschlüsselte Datenspeicherung, konkrete Löschkonzepte sowie eine menschliche Aufsicht im Rahmen von Prüfung und Freigabe der Transkripte.
Auch sind die berechtigten Erwartungen der betroffenen Personen zu berücksichtigen. In beruflichen Kontexten ist es zwar üblich und erwartbar, dass Besprechungen dokumentiert werden, nicht aber, dass dies heimlich oder intransparent geschieht. Zugleich wächst das Wissen über KI stetig, sodass viele Beschäftigte in absehbarer Zeit auch mit einer KI-gestützten Transkription rechnen werden – vorausgesetzt, sie wird klar kommuniziert und nicht für weitergehende Zwecke als die Protokollierung eingesetzt.
Um diesen Erwartungen gerecht zu werden und Bedenken hinsichtlich einer Überwachung oder zweckfremden Nutzung vorzubeugen, sind umfassende Transparenzmaßnahmen erforderlich. Die Teilnehmenden sollten bereits in der Einladung sowie erneut zu Beginn der Sitzung klar darüber informiert werden, dass eine KI-gestützte Transkription eingesetzt wird, welchem Zweck sie dient, auf welche Rechtsgrundlage sie gestützt wird und welche Schutzmaßnahmen vorgesehen sind. Ergänzend kann eine Betriebsvereinbarung zusätzliche Transparenz und Rechtssicherheit für Beschäftigte schaffen.
Auch sollte den Teilnehmenden zumindest zu Beginn der Aufzeichnung ein effektives Widerspruchs- oder Opt-out-Recht eingeräumt werden. Dies kann etwa dadurch erfolgen, dass Beiträge einzelner Personen technisch oder organisatorisch von der Transkription ausgenommen oder nachträglich aus dem Transkript entfernt werden.
Im Regelfall nicht von den berechtigten Erwartungen umfasst ist bspw. das weitere Training des Transkriptionstools mit Besprechungsinhalten.
Letztlich sind in die Interessenabwägung sämtliche Umstände des konkreten Einzelfalls einzubeziehen. Erst eine Gesamtschau aller relevanten Faktoren ermöglicht eine belastbare Bewertung, ob Art. 6 Abs. 1 lit. f DSGVO im konkreten Fall als Rechtsgrundlage herangezogen werden kann.
Verarbeitung von Artikel-9-Daten
Wie oben dargestellt wird unabhängig vom eingesetzten Transkriptionstool zwangsläufig die Stimme der Teilnehmenden verarbeitet. Dies wirft die Frage auf, ob hierdurch der Anwendungsbereich des Art. 9 Abs. 1 DSGVO eröffnet ist, insbesondere im Hinblick auf biometrische Daten zur eindeutigen Identifizierung einer natürlichen Person.
Nach Art. 4 Nr. 14 DSGVO sind biometrische Daten solche personenbezogenen Daten, die mit speziellen technischen Verfahren aus physischen, physiologischen oder verhaltensbezogenen Merkmalen einer natürlichen Person gewonnen werden und deren eindeutige Identifizierung ermöglichen oder bestätigen, etwa Gesichtsbilder oder daktyloskopische Daten.
Die Verarbeitung der Stimme stellt grundsätzlich eine Verarbeitung eines biometrischen Datums dar. Dies bedeutet jedoch nicht automatisch, dass zugleich besondere Kategorien personenbezogener Daten im Sinne des Art. 9 DSGVO verarbeitet werden. Voraussetzung für die Anwendbarkeit des Art. 9 DSGVO ist vielmehr, dass das biometrische Merkmal „Stimme“ zum Zweck der eindeutigen Identifizierung einer natürlichen Person verarbeitet wird.
Sprechertrennung
Dies ist bei KI-gestützten Transkriptionssystemen regelmäßig nicht der Fall. Zwar ist es für die Transkription erforderlich, einzelne Sprecherbeiträge voneinander zu unterscheiden; eine Identifizierung der sprechenden Person ist hierfür jedoch nicht notwendig. Zu diesem Zweck erzeugen KI-Modelle sogenannte Voice Embeddings, also numerische Vektoren, die akustische Eigenschaften einer Stimme abbilden. Diese ermöglichen eine Sprechertrennung innerhalb einer Sitzung, erlauben jedoch keine personenübergreifende und kontextunabhängige Wiedererkennung.
Eine Zuordnung von Wortbeiträgen zu bestimmten Personen erfolgt vielmehr über Kontextinformationen, etwa den aktiven Mikrofoneingang, das im Meeting verwendete Nutzerkonto oder technische Metadaten. Die Stimme selbst dient dabei ausschließlich der Erfassung und Transkription des gesprochenen Inhalts.
VerknĂĽpfung mit Nutzerkonten
Teilweise wird eingewandt, dass die VerknĂĽpfung einer Stimme mit einem Nutzerkonto faktisch eine Identifikation darstellt. MaĂźgeblich ist jedoch nicht das Bestehen einer Zuordnung als solche, sondern der Zweck dieser Zuordnung. Eine Identifikation im datenschutzrechtlichen Sinne setzt voraus, dass biometrische Merkmale gezielt zur eindeutigen Wiedererkennung verarbeitet werden.
Bei der KI-gestützten Transkription dient die Zuordnung der Audiospur zu einem Nutzerkonto ausschließlich der technischen Durchführung des Dienstes, etwa der korrekten Anzeige von Sprecherbeiträgen oder der Speicherung der Transkription im jeweiligen Nutzerkontext. Eine stimmbezogene Wiedererkennung oder Profilbildung findet nicht statt. Allein die Verknüpfung der Stimme mit einem Nutzerkonto löst damit Art. 9 Abs. 1 DSGVO nicht aus, solange die Verarbeitung auf die Transkription beschränkt bleibt und nicht der Identitätsfeststellung oder -bestätigung dient. Betroffenenrechte
Besonders praxisrelevant bei der KI-gestützten Transkription von Videokonferenzen ist der Umgang mit den Betroffenenrechten. Die technische Komplexität einer KI-gestützten Verarbeitung – wie der EuGH in seiner Entscheidung Dun & Bradstreet (EuGH, Urt. v. 27.02.25 – C-203/22) ausdrücklich betont – führt nicht zu reduzierten Anforderungen an Transparenz, Verständlichkeit oder Effektivität der Betroffenenrechte.
Betroffene müssen insbesondere nachvollziehen können, dass eine Transkription erfolgt, wie und durch wen diese technisch umgesetzt wird, welche Daten verarbeitet werden und wie lange Audio- und Textdaten gespeichert bleiben. Diese Informationen sind gem. Art. 13 DSGVO bereits zu Beginn der Verarbeitung in transparenter und verständlicher Form bereitzustellen. Dies umfasst insbesondere eine nachvollziehbare Darlegung der verfolgten berechtigten Interessen, sowie einen klaren Hinweis auf das bestehende Widerspruchsrecht nach Art. 21 DSGVO.
Auf dieser Informationsgrundlage wird zugleich die Ausübung der weiteren Betroffenenrechte ermöglicht. Während die Erfüllung des Auskunftsrechts nach Art. 15 DSGVO im Kontext der Transkription regelmäßig keine besonderen Schwierigkeiten aufwirft, kommt dem Recht auf Löschung sowie dem Widerspruchsrecht besondere Bedeutung zu.
Bei der Löschung ist zwischen Audio-Rohdaten und dem erzeugten Transkript zu unterscheiden. Während Audioaufzeichnungen aus Gründen der Datenminimierung unverzüglich nach Erstellung oder Freigabe des Transkripts zu löschen sind, dienen Transkripte meist einer längerfristigen Dokumentation. Ein Anspruch auf Löschung nach Art. 17 DSGVO kann gleichwohl entstehen, insbesondere wenn der Zweck der Verarbeitung entfallen ist oder ein wirksamer Widerspruch nach Art. 21 DSGVO eingelegt wird. In diesen Fällen sind die personenbezogenen Daten unverzüglich zu löschen, sofern keine überwiegenden schutzwürdigen Gründe des Verantwortlichen entgegenstehen.
Ausnahmen vom Löschanspruch können sich aus Art. 17 Abs. 3 DSGVO ergeben, etwa wenn gesetzliche Aufbewahrungspflichten, Erfordernisse der Nachweisführung, des Vorfallmanagements oder der Compliance einer sofortigen Löschung entgegenstehen. Solche Ausnahmen sind eng auszulegen und im Rahmen eines Archivierungs- bzw. Löschkonzepts zu dokumentieren und zu begründen. In der Praxis wird der Zweck der Transkription häufig erst nach einem gewissen Zeitraum entfallen, sodass Löschansprüche insbesondere infolge der Ausübung des Widerspruchsrechts relevant werden.
Betroffene können aus Gründen, die sich aus ihrer besonderen Situation ergeben, jederzeit Widerspruch gegen die Verarbeitung, gemäß Art. 21 DSGVO einlegen. Der Verantwortliche darf die dann Verarbeitung nur fortführen, wenn zwingende schutzwürdige Gründe nachgewiesen werden können, die die Interessen der betroffenen Person überwiegen. Dies setzt voraus, dass organisatorische und technische Vorkehrungen bestehen, um einem Widerspruch tatsächlich Rechnung tragen zu können.
Dies bedeutet insbesondere, dass eine Teilnahme an Videokonferenzen auch ohne Transkription möglich sein muss oder dass Beiträge widersprechender Personen von der Transkription ausgenommen werden können. Ist eine technische Differenzierung nicht möglich, ist zu prüfen, ob eine nachträgliche Streichung oder Anonymisierung der entsprechenden Passagen im Transkript ausreichend ist, um den Widerspruch wirksam umzusetzen. Ein lediglich theoretisches Widerspruchsrecht genügt den Anforderungen der DSGVO nicht; vielmehr muss dessen praktische Durchsetzbarkeit sichergestellt sein.
Strafrechtliche Betrachtung
Neben datenschutzrechtlichen Fragestellungen stellt sich auch die strafrechtliche Frage, ob § 201 StGB einschlägig ist. Dieser stellt die unbefugte Aufzeichnung des nichtöffentlich gesprochenen Wortes unter Strafe, sodass entscheidend ist, unter welchen Voraussetzungen eine Transkription als „befugt“ anzusehen ist.
Teilweise wird vertreten, dass eine datenschutzrechtlich zulässige Transkription unter bestimmten Voraussetzungen eine strafrechtliche Befugnis begründen kann. Maßgeblich ist dabei, ob vor Beginn der Transkription klar und verständlich über Art, Umfang und Zweck der Aufzeichnung informiert und eine tatsächliche Wahlmöglichkeit eingeräumt wurde. Nimmt eine Person unter diesen Bedingungen an der Videokonferenz teil, kann hierin eine konkludente Zustimmung zur Transkription gesehen werden. Auch eine auf Art. 6 Abs. 1 lit. f DSGVO gestützte Interessenabwägung kann in diesem Zusammenhang als rechtfertigendes Element berücksichtigt werden.
Vorsorglich ist festzuhalten, dass bislang höchstrichterlich nicht entschieden ist, ob und in welchem Umfang eine datenschutzrechtliche Zulässigkeit oder eine konkludente Einwilligung die strafrechtliche Befugnis nach § 201 StGB ersetzt.
Fazit
Die KI-gestützte Transkription von Videokonferenzen ist weder datenschutzrechtlich noch strafrechtlich grundsätzlich verboten. Sie stellt jedoch eine Datenverarbeitung dar, deren Rechtmäßigkeit nicht allein von einer formalen Rechtsgrundlage abhängt, sondern von der Qualität der Ausgestaltung des gesamten Verfahrens: der Transparenz, der technischen Ausgestaltung, der Datenminimierung und der Fähigkeit, Betroffenenrechte in jedem Verarbeitungsschritt zu gewährleisten.
Dabei sind auch die allgemeinen datenschutzrechtlichen Fragestellungen, die mit dem Einsatz externer Dienste verbunden sind, zu berücksichtigen. Fragen nach einem möglichen Drittlandtransfer, dem Abschluss eines Auftragsverarbeitungsvertrags, sowie der Einhaltung geeigneter technischer und organisatorischer Maßnahmen stellen sich auch bei Transkriptionsdiensten und sind entsprechend zu prüfen und zu dokumentieren. Verantwortliche dürfen die Transkriptionsfunktion eines Videokonferenzsystems daher nicht ungeprüft aktivieren, sondern müssen sich zuvor ein hinreichendes Verständnis von der Funktionsweise des eingesetzten Dienstes und den damit verbundenen Verarbeitungsvorgängen verschaffen.
Nur auf dieser Grundlage kann Art. 6 Abs. 1 lit. f DSGVO, im nicht-öffentlichen Bereich, eine belastbare Rechtsgrundlage darstellen und – in Verbindung mit klarer Information der Teilnehmenden – ggf. den Straftatbestand der unbefugten Aufzeichnung des nicht-öffentlich gesprochenen Wortes ausräumen. Verantwortliche müssen jedoch sorgfältig prüfen, ob Zweck, Verhältnismäßigkeit und Schutzmaßnahmen diesen Anforderungen genügen. Nur eine ernsthaft und detailliert durchgeführte Interessenabwägung trägt; eine pauschale Berufung auf betriebliche Effizienz hingegen nicht.
| Autorin: | Carolin Loy ist Bereichsleiterin des Bereichs Digitalwirtschaft und Pressesprecherin beim Bayerischen Landesamt fĂĽr Datenschutzaufsicht. | ![]() |




