Dr. Arne Klaas, RA, und Nikolaus Bertermann, RA/FAIT-Recht
KI-basierte Transkription zwischen Datenschutz- und Strafrecht
“Handgeschriebene Protokolle? So 2023 – lass uns das Meeting mit KI transkribieren.” “Echte Menschen am Wochenende am Telefon? Viel zu teuer.” In vielen Unternehmen dürfte die Entscheidung für den Einsatz von KI-Tools nicht viel kritischer hinterfragt worden sein. Doch wie so oft gilt: Nicht alles technisch Mögliche ist auch rechtlich zulässig. Der unbedachte Rückgriff auf zur Verfügung stehende KI-Tools birgt datenschutz- und strafrechtliche Haftungsrisiken. Die gute Nachricht: Diese Risiken lassen sich durch gestalterische Maßnahmen steuern. Der Beitrag zeigt an zwei praktischen Use-Cases – der Transkription von (Video-)Konferenzen sowie der Einbindung von KI-Voicebots in Kundenhotlines –, wie sich die gängigen Transkriptions-Tools datenschutzkonform einsetzen lassen und strafrechtliche Risiken vermieden werden.
I. Use-Cases
In der Praxis kommen KI-basierte Transkriptionen vor allem in zwei Fällen zum Einsatz: Bei der Transkription und automatischen Protokollierung von (digital durchgeführten) Besprechungen wie (Video-)Konferenzen und beim Einsatz von so genannten Voicebots, bei denen Anrufe nicht von Menschen, sondern von entsprechend trainierten KI-Systemen beantwortet werden. Beide Use-Cases ähneln sich in vielen Punkten, weisen aber teilweise rechtlich und technisch relevante Unterschiede auf.
1. Transkription von (Video-)Konferenzen
Viele Videokonferenztools wie Microsoft Teams oder Zoom bieten inzwischen voll integrierte Aufnahme- und Transkriptionsfunktionen (Facilitator, Copilot, AI Companion) an. Daneben gibt es eine Vielzahl von Tools, die unabhängig von den verschiedenen Videokonferenztools arbeiten oder nachträglich aufgezeichnete Konferenzen transkribieren. Ziel des Einsatzes der Transkriptionstools ist meist entweder die Erstellung eines möglichst vollständigen Protokolls der Besprechung oder die Erstellung einer Zusammenfassung der Besprechung basierend auf dem vollständigen Protokoll. Für die “Übersetzung” der Audiosignale in Text kommen so genannte “Speech-to-Text”-Programme zum Einsatz, die häufig KI-unterstützt sind. Die KI produziert dann kein genaues Wortlautprotokoll, sondern analysiert das Gesprochene und erzeugt daraus logisch erscheinende Sätze, die von den sprechenden Personen häufig nicht exakt so gesagt wurden. Rechtlich zu bewerten sind dabei alle drei Arbeitsschritte: Die Aufzeichnung des Audio-Signals, die KI-gestützte Erstellung des vollständigen Protokolls und schließlich die KI-gestützte Zusammenfassung der Inhalte für ein Kurzprotokoll. Die Speicherdauer der in den drei Arbeitsschritten produzierten Daten kann je nach eingesetztem System und individueller Konfiguration sehr unterschiedlich sein. Für die Audioaufzeichnung wird häufig bereits eine nur flüchtige Aufzeichnung (on-the-fly-Transkription) angeboten, bei der das gesprochene Wort nur für die Dauer der Übersetzung in Text im Arbeitsspeicher gespeichert wird und nach der Generierung des Textes gelöscht wird. Für die generierten Protokolle und Zusammenfassungen können in der Regel individuelle Speicherdauern festgelegt werden, wobei je nach Zweck der Transkription die Ergebnisse häufig in andere Systeme übernommen und von dort weiter verarbeitet und gespeichert werden.
2. Einbindung von KI-Voicebots in Kundenhotlines
Für den Einsatz von Voicebots gibt es insbesondere im Kundenservice vielfältige Anwendungsfälle. In einfach gehaltenen Systemen sollen Anrufende lediglich möglichst schnell und ohne “Drück die 1” zu dem richtigen Mitarbeitenden geleitet werden oder Anrufende können nach einer Vorklassifizierung eine Nachricht hinterlassen, die zu den üblichen Bürozeiten abgearbeitet wird. Komplexere Systeme gehen in einen Dialog mit den Anrufenden und produzieren Antworten für Standardprobleme oder erläutern einfache Schritte, wie sie online sonst über FAQ abgebildet werden. Der Prozess des Transkribierens ist technisch identisch zu der Transkription bei Videokonferenzen. Allerdings dient hier das Wortlautprotokoll im Ping-Pong zwischen Frage der anrufenden Person und Antwort des Voicebots als Kontext für weitere Antworten der KI. In den Kundenservicesystemen der Unternehmen wird entweder ein Wortlautprotokoll des Gesprächs oder eine Zusammenfassung mit den Empfehlungen der KI gespeichert.
II. Datenschutzrechtliche Anforderungen
Alle drei Verarbeitungsschritte (Aufzeichnung, Transkription und Zusammenfassung) beziehen sich in beiden Use-Cases auf personenbezogene Daten und erfordern daher eine datenschutzrechtliche Rechtsgrundlage. Dabei könnte man jeden der drei Verarbeitungsschritte bereits isoliert als Verarbeitung im Sinne des Art. 4 Nr. 2 DSGVO betrachten (Mikroebene). Überzeugender ist es jedoch, die drei Verarbeitungsschritte als eine einheitliche Vorgangsreihe mit einem gemeinsamen Zweck und damit als eine Verarbeitung (Makroebene) zu betrachten.1 Gemeinsame Zwecke der Verarbeitung können z. B. die Protokollierung von Besprechungen oder die Dokumentation von Kundenanfragen sein.
1. Zweckbestimmung
Die Transkription ist regelmäßig nicht der eigentliche Zweck der Verarbeitung, sondern vielmehr nur Mittel zum Zweck. Wie bei jeder anderen Verarbeitung auch müssen der oder die Zwecke vor Beginn der Verarbeitung festgelegt werden, Art. 5 Abs. 1 Buchst. b) DSGVO. Die Zwecke können dabei vielfältig sein, oft wird es bei (Video-)Konferenzen um die Dokumentation von Besprechungshinhalten und um die Aufgabenverteilung gehen. Bei Voicebots in Kundenhotlines wird es meist um die Dokumentation der Kundenanfrage oder um die direkte Beantwortung von Kundenfragen gehen. Wenn Verantwortliche die Transkripte auch zur Qualitätsprüfung oder zum Training der KI-Systeme nutzen wollen, handelt es sich um einen eigenständigen Zweck.2 Da die Speech-to-Text-Programme in den meisten Fällen als austrainierte Fertigprodukte eingesetzt werden, geht es beim Training der KI-Systeme meist weniger um klassisches KI-Training als vielmehr um die Anpassung der Parametrisierung oder der Gesprächsleitfäden für den Voicebot. In diesen Fällen geht es dann nicht darum, die Stimme oder die Wortwahl der betroffenen Personen in ein KI-System aufzunehmen, sondern vielmehr um die Ableitung von Anpassungsbedarfen an Parameter und Gesprächsleitfäden, so dass keine dauerhafte Speicherung möglicherweise personenbezogener Daten erforderlich ist.
2. Einwilligung
Reflexartig wird regelmäßig die Einwilligung nach Art. 6 Abs. 1 S. 1 Buchst. a) DSGVO als einzige denkbare Rechtsgrundlage für die drei Verarbeitungsschritte genannt, zumal häufig im Hinterkopf mit Blick auf das Strafrecht noch die Einwilligung als Rechtfertigungsgrund herumspukt. In der Praxis ist die Einwilligung jedoch für beide hier betrachteten Use-Cases häufig nicht geeignet. Zum einen gestaltet sich die Dokumentation der zentralen Anforderungen (Freiwilligkeit, Bestimmtheit, Informiertheit) praktisch als herausfordernd, gerade wenn (Video-)Konferenzen spontan gestartet werden, Teilnehmende in eine laufende Konferenz eingeladen werden oder sich nachträglich einwählen. Zum anderen sind Einwilligungen jederzeit und formlos widerruflich, Art. 7 Abs. 3 DSGVO. Der mit der Transkription verfolgte Zweck ist meist schon nicht mehr vollständig zu erreichen, wenn nur eine Person keine Einwilligung erteilt oder diese später widerruft. Jede Verpflichtung zur Einwilligung ist aber freiwilligkeitsschädlich, Art. 7 Abs. 4 DSGVO. Insofern ist die Einwilligung in der Praxis als Rechtsgrundlage für KI-basierte Transkriptionen meist ungeeignet.3
3. Vertragserfüllung, rechtliche Verpflichtung, lebenswichtige oder öffentliche Interessen?
Kaum nutzbar für die Rechtfertigung der Datenverarbeitung dürften in der Praxis auch die Rechtsgrundlagen Art. 6 Abs. 1 S. 1 Buchst. b) bis e) DSGVO sein.
Zwar sind Konstellationen vorstellbar, gerade bei Voicebots, in denen die Kommunikation konkret in die vertraglichen Leistungspflichten fällt (z. B. Supporthotline, Meldung von Mängeln an der Mietsache, Bestellhotline), allerdings wird die vollständige Aufzeichnung und Transkription nur in seltenen Fällen für die Vertragsdurchführung erforderlich sein.4
Sofern spezialgesetzliche Aufzeichnungspflichten bestehen, z. B. nach § 83 Abs. 3 S. 1 WpHG, zielen diese regelmäßig auf die Audioaufzeichnung ab. Da die Transkripte typischerweise Interpretationen der KI zu dem gesprochenen Wort sind, können Transkripte die gesetzlichen Aufzeichnungspflichten in der Regel nicht erfüllen.
Wenn Voicebots beispielsweise im Rettungsdienst Notrufe annehmen, um überlastete Rettungsstellen zu entlasten, könnten lebenswichtige Interessen der betroffenen Personen relevant sein, in diesen Spezialfällen wäre jedoch typischerweise zusätzlich Art. 9 DSGVO gesondert zu beachten.
Mit Blick auf private Unternehmen und Organisationen hilft auch das öffentliche Interesse regelmäßig nicht weiter, gleichwohl könnte Art. 6 Abs. 1 S. 1 Buchst. e) DSGVO für den Einsatz von Transkriptionstools bei Behörden bedeutsam sein, da diesen ein Rückgriff auf die Interessenabwägung verwehrt ist.
4. Interessenabwägung
In der Praxis ist daher für die hier betrachteten Use-Cases Art. 6 Abs. 1 S. 1 Buchst. f) DSGVO die relevanteste Rechtsgrundlage für die Datenverarbeitungen. Wichtig ist, dass der Verantwortliche konkrete Prozesse betrachtet und seine damit zusammenhängenden berechtigten Interessen dokumentiert (Stufe 1). Zu prüfen ist nicht die technische Funktion des Transkribierens, sondern das berechtigte Interesse des Verantwortlichen an dem Ergebnis der Transkription. Nur, wenn daran ein konkretes berechtigtes Interesse festgestellt werden kann, werden auf Stufe 2 die Erforderlichkeit und auf Stufe 3 die gegenläufigen Interessen der betroffenen Personen geprüft. Es gilt daher, verschiedene Fallkonstellationen zu betrachten, zu bewerten und zu dokumentieren. Die Transkription eines Kundentermins oder einer Teambesprechung mit Aufgabenverteilung zum Zwecke der Erstellung eines Kurzprotokolls funktioniert technisch genauso wie die Transkription eines Personalgesprächs. Aber die Interessenlage auf Seiten des Verantwortlichen und der betroffenen Personen (Stufe 3) unterscheiden sich ebenso wie die konkrete Erforderlichkeit (Stufe 2).
Dabei spielen die konkreten Speicherdauern sowohl hinsichtlich der Erforderlichkeit als auch im Rahmen der konkreten Interessenabwägung eine zentrale Rolle. In der Regel werden Zusammenfassungen eines Geschäftstermins weniger Interessen der an dem Gespräch beteiligten Personen berühren als die vollständige Audioaufzeichnung selbst oder das faktische Wortlautprotokolle mit vielen “Ähs” und “Ähms”. Generell gilt, je kürzer die Speicherdauern für die einzelnen Zwischenschritte gewählt werden, desto eher können eine Erforderlichkeit und überwiegende Interessen des Verantwortlichen angenommen werden.
Die berechtigten Erwartungen der betroffenen Personen (Stufe 3) können gezielt durch transparente Information über die Transkription und die Speicherdauern mit gesteuert werden.5 Waren ein KI-Transkript oder ein autonomer Voicebot vor wenigen Jahren noch utopisch und nicht erwartbar, werden sie heute mehr und mehr zum Standard.
Mit Blick auf das Widerspruchsrecht nach Art. 21 DSGVO ist festzuhalten, dass dieses – ausgenommen in Fällen der Direktwerbung – gerade kein pauschales oder grundloses Recht darstellt.6 Anders als beim Widerruf einer Einwilligung bedarf es für einen Widerspruch gem. Art. 21 DSGVO einer besonderen Situation, in der sich die betroffene Person befindet. Insofern trifft die widersprechende Person eine Darlegungslast für das Bestehen der Voraussetzungen eines Widerspruchs gegen die Verarbeitung.
5. Stimme als biometrisches Datum
Die Audioaufzeichnung der menschlichen Stimme als solche stellt – wie ein normales Foto – kein biometrisches Datum dar.7 Erforderlich dafür wären (1) ein spezielles technisches Verfahren, (2) die Eignung zur eindeutigen Identifikation und (3) eine entsprechende Zweckbestimmung.8 Insofern kommt es auf eine Prüfung der konkret eingesetzten Technik an. Bei Voicebots findet in der Regel eine 1:1-Kommunikation statt, die keine differenzierende Identifikation des am Gespräch beteiligten Menschen erfordert. Bei (Video-)Konferenzen erfolgt die Zuordnung von Redebeiträgen typischerweise über den Account der teilnehmenden Person. Versucht das eingesetzte KI-Tool Beiträge verschiedener Personen, die über den gleichen Account oder das gleiche Mikrofon sprechen, voneinander zu unterscheiden, ist genauer zu prüfen, ob die Schwellen für ein spezielles technisches Verfahren und die eindeutige Identifikation tatsächlich überschritten werden. Das ist jedenfalls dann zweifelhaft, wenn die Daten nur kurzzeitig gespeichert werden und das Ziel lediglich das Unterscheiden verschiedener Sprechender ist, nicht die eindeutige Identifikation.
Sofern Personen in ihrem Profil aktiv Sprachproben hinterlegen, um in transkribierten Präsenzbesprechungen oder größeren (Video-)Konferenzen identifizierbar zu sein, wären die dabei generierten Daten wohl als biometrische Daten im Sinne von Art. 9 Abs. 1 DSGVO zu verstehen. In diesem Fall müsste bei der Erstellung des Profils bereits eine tragfähige Rechtsgrundlage geschaffen werden. Aufgrund der engen Ausnahmen in Art. 9 Abs. 2 DSGVO wird hier meist nur die Einwilligung in Betracht kommen. Diese kann aber durch entsprechende Information und Zweckbestimmung so ausgestaltet werden, dass sie die Nutzung der biometrischen Profildaten bei zukünftigen Transkripten gestattet. Bei einem Widerruf der Einwilligung müssten dann die Profildaten gelöscht werden, so dass die reine Audioaufzeichnung der Stimme den biometrischen Charakter verliert.
III. Strafrechtliche Grenzlinien
Das Strafrecht reguliert die Aufnahme und Weiterverarbeitung von Wortbeiträgen durch drei Tatbestände:
- § 201 StGB (“Verletzung der Vertraulichkeit des Wortes”)
- § 42 Abs. 2 Nr. 1 BDSG (“Strafbare Datenschutzverstöße”)
- § 27 Abs. 1 TDDDG (“Abhör-/Mitteilungsverbot”)
1. § 201 StGB (“Verletzung der Vertraulichkeit des Wortes”)
§ 201 Abs. 1, Abs. 2 StGB erfasst die unbefugte Aufnahme des nichtöffentlich gesprochenen Wortes sowie den anschließenden Umgang mit solchen Aufnahmen.
a) Gesprochene Worte
“Gesprochene Worte” sind akustisch wahrnehmbare menschliche (Gedanken-)Äußerungen.9 Das bloße Zuhören und das Anwählen von Tasten10 (bspw. bei der Abfrage des Interesses an der Fortsetzung des KI-basierten Telefonats oder an der Weiterleitung an einen menschlichen Gesprächspartner) eröffnen den Anwendungsbereich des § 201 Abs. 1, Abs. 2 StGB nicht.
b) Nichtöffentliche Äußerungen
Wortbeiträge im Rahmen einer Videokonferenz bzw. eines Telefongesprächs sind in aller Regel nichtöffentlich. Diese sind “nicht für einen größeren, nach Zahl und Individualität unbestimmten oder nicht durch persönliche oder sachliche Beziehungen miteinander verbundenen Personenkreis bestimmt oder unmittelbar verstehbar”.11 Der Personenkreis einer Videokonferenz wird durch die Einladung individualisiert. Die Teilnehmer sind typischerweise durch die Zugehörigkeit zu einer Organisation bzw. einem Projekt miteinander verbunden. Technische Sicherheitsmaßnahmen verhindern die Wahrnehmbarkeit der Inhalte durch Außenstehende. Bei bilateralen Telefongesprächen sind die Äußerungen nur für den individuellen Gesprächspartner bestimmt. Soweit auch die zuständigen Mitarbeiter einer Organisation adressiert werden, bildet deren gemeinsame Unternehmensangehörigkeit eine ausreichende persönliche Verbindung.
c) Aufnahme auf einen Tonträger
Nicht jede aufnahmefähige Anwendung ist automatisch ein Tonträger (§ 201 Abs. 1 Nr. 1 StGB). Das Erfassen des gedanklichen Inhalts anhand akustischer Signale genügt nicht. Ein Tonträger setzt die Möglichkeit der akustischen Wiedergabe voraus.12 Der isolierte Blick auf das Aufnahmetool greift jedoch zu kurz. Maßgeblich ist das Endgerät in seiner Gesamtfunktion. Ausreichend ist, dass die elektronisch gespeicherte Aufzeichnung mithilfe weiterer auf demselben Endgerät installierter (Dritt-)Software als akustischen Signal reproduziert werden kann. Nicht ausreichend ist die Wiedergabe des elektronisch gespeicherten Tonsignals mithilfe eines weiteren Endgeräts (Wortlaut von § 201 Abs. 1 Nr. 1 StGB: “einen Tonträger”, Art. 103 Abs. 2 GG).
d) Umgang mit dem transkribierten Protokoll
Der unternehmenstypische Umgang mit dem Protokoll wird nicht von § 201 Abs. 1, Abs. 2 StGB erfasst. Bereits das Transkribieren ist ohne akustische Wiedergabe des Audiosignals kein “Gebrauchen” (§ 201 Abs. 1 Nr. 2 Var. 1 StGB).13 Die Übermittlung des transkribierten Protokolls an Dritte ist kein “Zugänglichmachen” (§ 201 Abs. 1 Nr. 2 Var. 2 StGB) und typischerweise auch keine “öffentliche Mitteilung” (§ 201 Abs. 2 S. 1 Nr. 2 StGB).14 Bei Ersterem ist das Bezugsobjekt das Audiosignal15 und nicht der verschriftlichte Gedankeninhalt. Bei Zweiterem müsste das Protokoll – nun umgekehrt – einem größeren, nach Zahl und Individualität unbestimmten oder nicht durch persönliche/sachliche Beziehungen miteinander verbundenen Personenkreis zur Kenntnis gelangen können.16 Daher wird die Weitergabe des Protokolls an die Teilnehmer der Videokonferenz, an weitere Projektgruppen und die zuständige Unternehmensabteilung nicht erfasst. Auch der Upload in das (nur) unternehmensintern erreichbare Intranet ist grundsätzlich nicht tatbestandsmäßig. Die Unternehmenszugehörigkeit vermittelt eine ausreichende persönliche/sachliche Verbindung. Aber: je größer und damit anonymer das Unternehmen ist, desto stärker spricht das für das Entstehen einer “Öffentlichkeit”.
e) Umgang mit dem Audiosignal
Allerdings wird die Verwendung des Audiosignals erfasst. Der Rückgriff auf das Audiosignal ist insbesondere zur Qualitätskontrolle erforderlich. Typischerweise wird die Aufnahme zum Zweck der Kontrolle der maschinellen Transkription abgespielt. Hiermit wird diese “gebraucht” (§ 201 Abs. 1 Nr. 2 Var. 1 StGB). Durch die vorgelagerte Übermittlung an einen zuständigen Mitarbeiter wird diese “zugänglich gemacht” (§ 201 Abs. 1 Nr. 2 Var. 2 StGB).
f) Befugtes Handeln: Datenschutzakzessorietät
Die Befugnis zur Aufnahme und Verwendung der Aufnahme kann sich aus der gesamten Rechtsordnung ergeben. Strafrecht ist ultima ratio; ein zivil- oder datenschutzrechtlich erlaubtes Verhalten kann nicht strafrechtlich sanktioniert werden. Im Fall von unionsrechtlichen Erlaubnisnormen tritt der Anwendungsvorrang hinzu (Art. 4 Abs. 3 EUV).17 Eine Befugnis kann sich daher insbesondere auch aus datenschutzrechtlichen Erlaubnistatbeständen ergeben, wie bspw. Art. 6 Abs. 1 S. 1 lit. f) DSGVO.18 Daraus folgt: Soweit die unter II. skizzierten datenschutzrechtlichen Anforderungen eingehalten werden, ist auch eine Strafbarkeit gem. § 201 Abs. 1, Abs. 2 StGB ausgeschlossen.
g) Rechtfertigende Einwilligung
Die Berücksichtigung der datenschutzrechtlichen (Informations-)Pflichten zahlt sich auf einer weiteren Ebenen aus. Soweit die Teilnehmer des (Video-)Calls vorab über die geplante Aufzeichnung (bspw. durch ein Pop-Up oder eine vorherige Ansage bzw. eine Nachricht im Chat informiert werden, liegt in der fortgesetzten Teilnahme am Gespräch eine rechtfertigende Einwilligung.19 Verstöße gegen die (strengen) Informationspflichten aus Art. 13 Abs. 1, Abs. 2 DSGVO stehen einer rechtfertigenden Einwilligung nicht entgegen. Die Anforderungen an eine wirksame Einwilligung sind im Strafrecht geringer als im Datenschutzrecht. Der strafrechtliche Rechtsgutverzicht muss nur “nach außen kundbar” geworden sein.20 Ausreichend ist das Wissen, dass mit der fortgesetzten Teilnahme das nichtöffentlich gesprochene Wort aufgezeichnet wird. Selbst eine direkte Aufforderung zur Teilnahme steht der Annahme eines freiwilligen Handelns nicht entgegen, solange diese keinen nötigenden Charakter entfaltet.21
2. § 42 Abs. 2 Nr. 1 BDSG (“Strafbare Datenschutzverstöße”)
§ 42 Abs. 2 Nr. 1 BDSG erweitert den Pflichtenkreis nicht. Werden die datenschutzrechtlichen Anforderungen eingehalten, erfolgen die Verarbeitungshandlungen “berechtigt”. Selbst bei potentiellen Verstößen gegen datenschutzrechtliche Pflichten kommt eine rechtfertigende Einwilligung der Gesprächsteilnehmer in Betracht.
Allerdings wird das strafrechtliche Haftungsrisiko erweitert. Die Anwendungsbereiche von § 42 BDSG und § 201 StGB sind komplementär. Das Kernstrafrecht verdrängt das BDSG nur, soweit dieses eine eigenständige Regelung der Verarbeitung personenbezogener Daten vorsieht (§ 1 Abs. 2 S. 1, S. 2 BDSG).22 Der Gesetzgeber hat in § 201 StGB nicht abschließend geregelt, unter welchen Voraussetzungen das nichtöffentlich gesprochene Wort verarbeitet werden darf. Der fragmentarische Charakter wird durch die Schaffung weiterer (Straf-)Tatbestände belegt, die angrenzende Verhaltensweisen erfassen bzw. in Idealkonkurrenz stehen können (bspw. § 23 GeschGehG oder § 202a StGB). § 42 Abs. 2 Nr. 1 BDSG stößt damit in die Regelungslücken von § 201 Abs. 1, Abs. 2 StGB vor. D. h. konkret: Die datenschutzwidrige Aufnahme des Audiosignals mit IT-Tools, die keine Tonträgereigenschaft aufweisen und die Transkription der Aufnahme können über § 42 Abs. 2 Nr. 1 BDSG sanktioniert werden.
3. § 27 Abs. 1 TDDDG (“Abhör-/Mitteilungsverbot”)
Eine weitere Grenzlinie zieht das Abhör-/Mitteilungsverbot aus § 5 Abs. 1, Abs. 2 TDDDG. Dagegen gerichtete Verstöße sind strafbewehrt (§ 27 Abs. 1 TDDDG).
a) Nachricht
Gesprochene Gesprächsinhalte sind Nachrichten (§ 2 Abs. 2 Nr. 4 TDDDG). Die Information des Verbindungsaufbaus (“bloßes Zuhören”) dagegen nicht.23 Der Wortlaut spricht für einen informatorischen Mindestgehalt, der auch akustisch wahrnehmbar ist.24 Ansonsten hätte der Gesetzgeber anstelle des Begriffs des “Abhörens” den des “Abfangens” oder “Ausleiten” verwendet. Die Regelung des Fernmeldegeheimnisses in § 3 TDDDG unterstreicht das systematisch. Dort werden die näheren Umstände der Telekommunikation ausdrücklich erfasst; im Rahmen von § 5 TDDDG sowie § 2 Abs. 2 Nr. 4 TDDDG dagegen nicht.
b) Abhören mit einer Funkanlage
Die das Audiosignal der (Video-)Calls aufnehmenden Endgeräte sind typischerweise Funkanlagen (§ 3 Abs. 1 Nr. 1 lit. a) FuAG). Erfasst werden bspw. Server/Laptops/Computer, die kabellos mit dem Internet verbunden werden können.25 Es reicht jedoch nicht aus, dass das technische Endgerät abstrakt dem Begriff der Funkanlage unterfällt. Das Abhören – d. h. das Aufzeichnen der Gesprächsinhalte26 – muss “mit einer Funkanlage” erfolgen. Hierfür muss auf diese spezifische Funkfunktion zurückgegriffen wird.27 Nur in diesem Fall verwirklicht sich die von § 5 Abs. 1 TDDDG regulierte Gefahr.
c) Anwendungsbereich des Abhörverbots
Das Abhörverbot gilt nicht, wenn die Nachrichten für den Betreiber der Funkanlage bestimmt sind (§ 5 Abs. 1 Var. 1 TDDDG). Betreiber der Funkanlage ist die Organisation, die über das “Ob” und das “Wie” des Einsatzes des Endgeräts entscheidet, das sich als Funkanlage qualifiziert (bspw. der Server, auf dem das Aufnahmetool läuft).28 Die Bestimmungsrichtung der Nachricht ist zweistufig zu ermitteln: Ausgangspunkt ist der subjektive Wille des Absenders,29 der sich objektiv in der Nachricht ausdrücken muss.30 In den unternehmenstypischen Situationen richten sich die Wortbeiträge nicht nur an die Teilnehmer der (Video-)Konferenz bzw. an den telefonischen Gesprächspartner, sondern an die durch sie vertretende Organisation (§§ 133, 157 BGB analog). Die transparente Information über die Aufzeichnung/Transkription sowie die weitere Verwendung des Protokolls prägt die Bestimmungsrichtung der nachfolgenden Wortäußerungen.
d) (Kein) Rückgriff auf Art. 6 Abs. 1/Art. 9 Abs. 2 DSGVO?
Bislang ist nicht geklärt, ob das Abhörverbot des § 5 Abs. 1 TDDDG die Vorgaben aus Art. 5 Abs. 1 RL 2002/58/EG umsetzt.31 In diesem Fall käme eine Rechtfertigung auf der Grundlage von Art. 6 Abs. 1/Art. 9 Abs. 2 DSGVO nur in Betracht, soweit die Regelungen in § 5 Abs. 1 TDDDG richtlinienüberschießend wären (Art. 95 DSGVO).
e) Rechtfertigende Einwilligung
Auch § 27 Abs. 1 Nr. 1 TDDDG ist einer rechtfertigenden Einwilligung zugänglich.32 Der Straftatbestand schützt Individualrechtsgüter (persönliches Fernmeldegeheimnis/Allgemeines Persönlichkeitsrecht).33
4. Zusammenfassung: Datenschutz- und Strafrecht Hand in Hand
Die datenschutzkonforme Ausgestaltung eliminiert das strafrechtliche Risiko. Bei einer transparenten Aufklärung der Gesprächsteilnehmer über den Zweck, die Funktionsweise und die Reichweite der Verarbeitungshandlungen vor dem Beginn der Aufzeichnung und dem Einräumen einer (faktischen) Opt-Out-Möglichkeit liegt in der fortgesetzten Teilnahme am (Video-)Call eine rechtfertigende Einwilligung. Das Aufzeichnen/Speichern/Transkribieren/Abspielen erfolgt “befugt” (§ 201 Abs. 1 StGB) bzw. “berechtigt” (§ 42 Abs. 2 Nr. 1 BDSG). Die Gesprächsinhalte sind für die aufzeichnende Organisation “bestimmt” (§§ 27 Abs. 1, 5 Abs. 1 Var. 1 TDDDG).
IV. Praktische Umsetzung
Wer (Video-)Konferenzen transkribieren oder Voicebots einsetzen möchte, muss die konkreten Einsatzszenarien dokumentieren und bewerten, intern klare Vorgaben für den Einsatz machen und die genutzten Systeme technisch korrekt einstellen.
Das datenschutz- sowie strafrechtliche Risiko steht und fällt mit der transparenten Information der betroffenen Personen. Insofern sind klar verständliche Datenschutzhinweise zwingend erforderlich. Folgende Tipps erleichtern die praktische Umsetzung:
- Bei der Transkription von (Video-)Konferenzen können individuelle Datenschutzhinweise bereits mit der Einladung zum Termin verschickt werden.
- Entsprechende Hinweise auf die Transkription können beispielsweise auch als automatische Signaturen in E-Mail-Einladungen eingebunden werden, wenn die Templates der Anbieter keine individuellen Anpassungen ermöglichen.
- Viele Konferenzsystem ermöglichen inzwischen technische Einstellungen, bei denen mit Start der Aufzeichnung zunächst alle Kameras und Mikrofone deaktiviert werden und ein Hinweistext eingeblendet wird.
- Typischerweise kann dort auch ein eigener Datenschutzhinweise angezeigt oder verlinkt werden, die Standardhinweise der Anbieter passen in der Regel nicht, da sie nicht den richtigen Verantwortlichen nennen und die Angaben zu den Speicherdauern nicht individualisiert sind. Häufig wird hier auch noch mit einer Einwilligung operiert. Gerade im internationalen Kontext ist es wichtig, die eigenen Einstellungen genau zu testen, teilweise werden von den Anbietern falsche Datenschutzhinweise eingeblendet, wenn der Rechner der empfangenden Person auf eine andere Sprache eingestellt ist.
- Bei Voicebots sollte auf den Umstand der Transkription in der Begrüßung klar hingewiesen werden und die vollständigen Datenschutzhinweise müssen leicht erreichbar sein. Es bietet sich an, den Voicebot stets auch auf Fragen zum Datenschutz und zu den Datenschutzhinweisen zu trainieren, so dass der Voicebot entsprechende Fragen richtig beantworten kann.
- Mit Blick auf die aus strafrechtlicher Sicht sinnvolle faktische Opt-Out-Möglichkeit sollte in den Datenschutzhinweisen auf das Recht zur Deaktivierung von Kamera und Mikrofon hingewiesen werden. Bei Voicebots ist ein Hinweis auf alternative Kommunikationswege empfehlenswert, das faktische Opt-Out würde dann durch Auflegen erfolgen.
V. Zusammenfassung
Was datenschutzrechtlich erlaubt ist, ist strafrechtlich nicht verboten. Bei der Transkription von Meetings oder der Nutzung von Voicebots steht und fällt die Drohkulisse “Strafbarkeit” mit der sauberen Planung der Prozesse, der klaren Festlegung kurzer Speicherfristen und vor allem der transparenten Information der betroffenen Personen. Bei gut dokumentierter Interessenabwägung kann die Transkription in vielen Fällen auf Art. 6 Abs. 1 S. 1 Buchst. f) DSGVO gestützt werden, eine Einwilligung nach Art. 6 Abs. 1 S. 1 Buchst. a) DSGVO ist regelmäßig nicht erforderlich und oft auch gar nicht geeignet. Aber Achtung: Die fehlende oder unvollständige Information der betroffenen Personen führt nicht nur zum Wegfall der datenschutzrechtlichen Rechtsgrundlage, sondern auch zu einem Strafbarkeitsrisiko.

Dr. Arne Klaas, RA, ist Partner bei WTK in Berlin. Er berät und verteidigt Unternehmen sowie Leitungsverantwortliche im Wirtschafts- und Steuerstrafrecht. Schwerpunkt: IT-/Datensanktionsrecht. Darüber hinaus berät er zur datenschutzrechtlichen Konzeptionierung von internen Untersuchungen und strategisch in unternehmerischen Krisensituationen.

Nikolaus Bertermann, RA/FAIT-Recht, ist Partner im Berliner Büro von SKW Schwarz Rechtsanwälte. Als Fachanwalt für IT-Recht und zertifizierter Datenschutzauditor (TÜV) berät und vertritt er im Datenschutz- und IT-Recht. Er ist auch als externer Datenschutzbeauftragter tätig. Zuvor war er rund zehn Jahre lang Justiziar eines europaweit führenden Webhostinganbieters.
Herbst, in: Kühling/Buchner, DS-GVO BDSG, 4. Aufl. 2024, Art. 4 Nr. 2 Rn. 15; Artikel-29-Datenschutzgruppe, WP 169, 27; bestätigt durch EDSA Leitlinien 07/2020 Version 2.0, Rn. 43.
Vgl. Herbst, in: Kühling/Buchner, DS-GVO BDSG, 4. Aufl. 2024, Art. 5, Rn. 36.
Ebenso Loy, DSB 2026, 24; Moers, PinG 2025, 87, 90; Weidenkeller/Imschweiler, PinG 2026, 2, 4.
Vgl. Heberlein, in: Ehmann/Selmayr, Datenschutz-Grundverordnung, 3. Aufl. 2024, Art. 5, Rn. 30.
Loy, DSB 2026, 24, 25.
Kamann/Braun, in: Ehmann/Selmayr, Datenschutz-Grundverordnung, 3. Aufl. 2024, Art. 21, Rn. 21.
Petri, in: Simitis/Hornung/Spiecker gen. Döhmann, Datenschutzrecht, 2. Aufl. 2025, Art. 4 Nr. 14, Rn. 8, 11; Weichert, in: Kühling/Buchner, DS-GVO BDSG, 4. Aufl. 2024, Art. 4 Nr. 14, Rn. 3.
Petri, in: Simitis/Hornung/Spiecker gen. Döhmann, Datenschutzrecht, 2. Aufl. 2025, Art. 4 Nr. 14, Rn. 8 f.; Weichert, in: Kühling/Buchner, DS-GVO BDSG, 4. Aufl. 2024, Art. 4 Nr. 14, Rn. 3; Loy, DSB 2026, 24, 26.
Kargl, in: NK-StGB, 6. Aufl. 2023, StGB § 201, Rn. 5; Heuchemer, in: BeckOK StGB, 66. Ed. 1.8.2025, StGB § 201; Rn. 3; Eisele, in: TK-StGB, 31. Aufl. 2025, StGB § 201, Rn. 5.
Vgl. Graf, in: MüKoStGB, 5. Aufl. 2025, StGB § 201, Rn. 12.
Kargl, in: NK-StGB, 6. Aufl. 2023, StGB § 201, Rn. 8; Eisele, in: TK-StGB, 31. Aufl. 2025, StGB § 201, Rn. 6.
Heuchemer, in: BeckOK StGB, 66. Ed. 1.8.2025, StGB § 201, Rn. 5; Eisele, in: TK-StGB, 31. Aufl. 2025, StGB § 201, Rn. 11; Kargl, in: NK-StGB, 6. Aufl. 2023, StGB § 201, Rn. 10; Radtke, in: MüKoStGB, 5. Aufl. 2024, StGB § 11, Rn. 170.
BT-Drs. 8/2545, 9; Heuchemer, in: BeckOK StGB, 66. Ed. 1.8.2025, StGB § 201, Rn. 7; Graf, in: MüKoStGB, 4. Aufl. 2021, StGB § 201, Rn. 26; Eisele, in: TK-StGB, 31. Aufl. 2025, StGB § 201, Rn. 17.
Vgl. Eisele, in: TK-StGB, 31. Aufl. 2025, StGB § 201, Rn. 24.
Eisele, in: TK-StGB, 31. Aufl. 2025, StGB § 201, Rn. 17.
Eisele, in: TK-StGB, 31. Aufl. 2025, StGB § 201, Rn. 27.
Schnabel/WĂĽnschelbaum, LTO vom 1.5.2024, unter: https://www.lto.de/recht/hintergruende/h/filmen-polizei-einsaetze-polizeigewalt-aufnahmen-beweis-video-dsgvo (Abruf: 19.4.2026).
BVerfG, 9.7.2025 – 1 BvR 975/25, juris, Rn. 10; VG Berlin, 23.9.2025 – 1 K 334/23, juris, Rn. 27; Schnabel/Wünschelbaum, StV 2024, 405, 409 f.; Eisele, in: TK-StGB, 31. Aufl. 2025, StGB § 201, Rn. 9; Klaas, ZD 2021, 564, 565; Klaas/Basar, KI-Transkription und § 201 StGB, unter: https://www.unternehmensstrafrecht.de/ki-transkription-und-%C2 %A7-201-stgb/ (Abruf: 19.4.2026).
S. hierzu OLG Karlsruhe, 28.6.2017 – 1 Rb 8 Sa 540/16, ZD 2017, 478, 479, Rn. 7 f.
Klaas, ZD 2021, 564, 568 m. w. N.
Klaas, ZD 2021, 564, 569 m. w. N.
Klaas, in: Klaas/Momsen/Wybitul, Datenschutzsanktionenrecht, 2023, § 8, Rn. 119, 122; Brodowski, in: BeckOK Datenschutzrecht, 52. Ed. 1.2.2025, BDSG § 42, Rn. 67.
So auch zu “technischen Datensignalen”: Höfinger ZUM 2011, 212, 212 f.; Popp, jurisPR-ITR 16/2008, Anm. 4; Gercke, ZUM 2011, 609, 621; LG Wuppertal, 19.10.2010 – 25 Qs-10 Js 1977/08-177/10, K&R 2010, 838; Hagemeier, HRRS 2011, 72, 76 f.; Baumeister, ZUM 2000, 114, 118; dagegen Altenhain, in: MüKoStGB, 4. Aufl. 2023, TTDSG § 27, Rn. 7; vgl. AG Potsdam, 11.10.1999 – 80 Ds 141/99, ZUM 2000, 166, 167.
Cornelius/Spitz, in: Klaas/Momsen/Wybitul, Datenschutzsanktionenrecht, 2023, § 27 TTDSG, Rn. 21.
Cornelius/Spitz, in: Klaas/Momsen/Wybitul, Datenschutzsanktionenrecht, 2023, § 27 TTDSG, Rn. 26.
LG Wuppertal, 19.10.2010 – 25 Qs-10 Js 1977/08-177/10, K&R 2010, 838; AG Wuppertal, 3.8.2010 – 26 Ds-10 Js 1977/08-282/08, juris; Cornelius/Spitz, in: Klaas/Momsen/Wybitul, Datenschutzsanktionenrecht, 2023, § 27 TTDSG, Rn. 22; Hagemeier, HRRS 2011, 72, 77.
Altenhain, in: MüKoStGB, 4. Aufl. 2023, TTDSG § 27, Rn. 24.
Vgl. Altenhain, in: MüKoStGB, 4. Aufl. 2023, TTDSG § 27, Rn. 11.
Baumeister, ZUM 2000, 114, 116; vgl. Altenburg/Rieks, ZD 2020, 237, 241.
Vgl. BVerfG, 14.12.2004 – 1 BvR 411/00, NStZ-RR 2005, 119, 120.
DafĂĽr: Schreiber, in: TTDSG, 2022, TTDSG § 5, Rn. 14; BT-Drs. 19/27441, 32 f. Unklar: BT-Drs. 19/27441, 35; a. A. Schmitz, in: Gierschmann/Baumgartner, TTDSG, 2023, TTDSG § 5, Rn. 2, 7; vgl. Hadidi, in: Geppert/SchĂĽtz, Beck’scher Kommentar zum TKG, 5. Aufl. 2023, TTDSG § 5, Rn. 1.
Altenhain, in: MüKoStGB, 4. Aufl. 2023, TTDSG § 27, Rn. 54.
Hadidi, in: Geppert/SchĂĽtz, Beck’scher Kommentar zum TKG, 5. Aufl. 2023, TTDSG § 27, Rn. 3; Altenhain, in: MĂĽKoStGB, 4. Aufl. 2023, TTDSG § 27, Rn. 2 f.



