Uni-Experten helfen der Polizei So kommen Wissenschaftler in Marburg Straftätern auf die (Audio-)Spur
Eine Wohnung überwachen oder das Telefon abhören: Das darf die Kriminalpolizei in bestimmten Fällen - zum Beispiel, wenn sie in Kapitalverbrechen ermittelt. Am Zentrum für Sprachforschung der Uni Marburg werden solche Aufnahmen analysiert.
Gea de Jong-Lendle sitzt stundenlang in einem schalldichten Raum an der Uni Marburg. Wenn sie einen Fall übernimmt, dann hört sie das Knacken der Telefonleitung, den lauten Straßenlärm und vor allem Stimmen, die miteinander reden. Was dort besprochen wird, ist meist schwer zu verstehen - aber eben polizeirelevant.
Die "NSU 2.0"-Drohbriefe wurden auch in Marburg analysiert
Mit ihrem Fachwissen als forensische Phonetikerin unterstützt sie regelmäßig die Kriminalpolizei. Das heißt, sie identifiziert verdächtige Stimmen auf einer Audio-Aufnahme, etwa über die Aussprache und den Dialekt. Sie wertet häufig Telefonmitschnitte aus oder auch Texte - wie zum Beispiel bei Drohbriefen aus den Jahren 2018 und 2019, die mit "NSU 2.0" unterschrieben worden waren.
Damals sind über 150 Mord- und Bombendrohungen an Politikerinnen und Politiker, Privatpersonen oder Institutionen geschickt worden. Die Signatur spielte auf die rechtsextrem Terrorgruppe Nationalsozialistischer Untergrund (NSU) an, die zehn Menschen ermordet und zahlreiche versuchte Mordanschläge verübt hatte.
Viele Drohbriefe konnten einem damals 54 Jahre alten Mann aus Berlin zugeordnet werden, der zu einer mehrjährigen Haftstrafe verurteilt wurde. "Es haben viele Opfer gelitten, und es ist einfach ein gutes Gefühl, dass wir einen kleinen Teil dazu beigetragen haben, dass das aufhört", sagt de Jong-Lendle.
Die beste Software befindet sich in unseren Köpfen
Natürlich gibt es mittlerweile auch Computer-Programme, die Telefonmitschnitte oder andere Aufnahmen auswerten können. Die stoßen laut de Jong-Lendle aber oft an Grenzen, etwa bei einer schlechten Audio-Qualität, lauten Hintergrundgeräuschen oder einem Mix aus mehreren Stimmen.
"Das menschliche Gehirn kann sich sehr gut auf eine einzige Stimme fokussieren und alles andere ausblenden", sagt die Phonetik-Expertin. Anders als ein Computerprogramm könne das Gehirn sehr genau Hintergrundgeräusche von einer Stimme unterscheiden. "Das ist eine Fähigkeit, die jeder Mensch hat."
Wie eine verdächtige Stimme überführt werden kann
Woran das liegt, das erforscht Paula Rinke in Marburg mit ihrer Doktorarbeit. Unter anderem greift sie auf eine Studie zurück, laut der fast jeder Mensch die Stimme von Angela Merkel problemlos erkennt. "Das Gehirn verarbeitet Stimmen innerhalb von 150 Millisekunden, das ist noch nicht mal eine Silbe lang."
Gerade diese Erkenntnis sei für die Forensik besonders relevant, wenn es um die Verlässlichkeit von Ohrenzeugen geht. Eine Stimme verrät aber noch viel mehr als nur die Tatsache, ob wir sie kennen oder nicht. Lispeln, Räuspern, Atempausen - auch anhand solcher Faktoren wird in Marburg ein Stimmprofil erstellt.
Ein Hinweis ist auch der Dialekt einer verdächtigen Stimme, sagt de Jong-Lendle. "Für uns ist wichtig, ob jemand das Wort Brot zum Beispiel mit einem gerolltem R oder einem Standard-R ausspricht." Eine Software könne diese kleinen, aber feinen Unterschiede in der Aussprache allerdings bisher nicht erkennen. Dabei hilft eine weltweit einzigartige Datenbank über verschiedene Sprachen und Dialekte in Marburg, der "Deutsche Sprachatlas".
In dieser Woche haben sich etwa 100 Wissenschaftlerinnen und Wissenschaftler aus der ganzen Welt in Marburg getroffen. Bei der Fachtagung ging es nicht nur um die menschliche Stimme, sondern auch um die Möglichkeiten, diese mit neuester Technik zu fälschen.
Nicht jeder Stimme kann vertraut werden
Sogenannte Deep Fakes werden immer glaubwürdiger. Das sind Aufnahmen, die klingen, als kämen sie von einer bekannten Person wie etwa Angela Merkel. Tatsächlich sind sie aber mithilfe von künstlicher Intelligenz erstellt worden.
Bisher sei das vor allem wegen Falschmeldungen im politischen Bereich ein Problem, sagt Anil Alexander. Er leitet eine Firma in Oxford (England) und entwickelt Software, die genau das entlarven soll. "Deep Fakes werden bald auch im normalen Leben auftauchen, dann müssen wir uns alle damit auseinandersetzen", ist er sicher.
Deep Fakes bald im normalen Alltag?
Als Beispiel nennt er weit verbreitete Betrugsmaschen: Eine Stimme gebe sich als Familienangehöriger aus und fordere Geld. "Die heutige Technik macht es möglich, dass so eine Stimme natürlich klingt, weil sie zum Beispiel stottert und eben nicht perfekt formuliert", sagt er.
Einige Entwickler von Künstlicher Intelligenz werben nach seiner Aussage damit, dass es nur eine Original-Aufnahme von 30 bis 60 Sekunden braucht, um einen glaubwürdigen Deep Fake zu erstellen.
"Es braucht aber wesentlich mehr, um alle Eigenheiten der menschlichen Stimme zu erfassen. Unter einer Stunde Material geht da nichts", so Alexander. Ein Problem sei allerdings, dass es massenhaft Videos und Audios im Internet gebe, gerade von berühmten Menschen.
Die Lösung? Ganz genau hinhören
"Ich denke, das Wichtigste ist es deshalb, Inhalte zu hinterfragen", sagt auch Paula Rinke. Zum Beispiel mit einer Frage wie dieser: "Kann es sein, dass Politiker X oder Promi Y solche Sätze wirklich sagen würde?"
Die 27-jährige will auch nach ihrer Doktorarbeit dabei helfen, verdächtige Stimmen oder gefälschte Aufnahmen zu entlarven - und die erstaunlichen Fähigkeiten des Gehirns einsetzen, um anderen zu helfen.
Hinweis: In einer früheren Version hieß es aufgrund eines Übertragungsfehlers, dass die Phonetik-Experten der Uni Marburg an den Ermittlungen zu den NSU-Morden beteiligt gewesen seien. Tatsächlich analysierten sie aber einige der "NSU 2.0"-Drohbriefe. Wir bitten, den Fehler zu entschuldigen.