Ein einstündiges Interview Wort für Wort zu übertragen, kann lange dauern. Und nerven. Diesen Arbeitsschritt übernehmen schon heute Transkriptionstools – inzwischen auch recht zuverlässig. Möglich macht das eine Technologie für automatische Spracherkennung.
Die Automatic-Speech-Recognition-Technologie (ASR), die Sprache in Text umwandelt, hat ihre Ursprünge in den 1950er Jahren, entwickelte sich jedoch zuletzt rapide weiter. Die Verbesserungen sind vor allem dem Fortschritt in KI und Maschinellem Lernen (-> Glossar), zu verdanken: Systeme können trainiert werden, komplexe Sprachmuster mit hoher Genauigkeit zu erkennen sowie verschiedene Sprecherinnen und Sprecher zu identifizieren und zu trennen.
Die Umwandlung von Sprache zu Text durch ASR funktioniert, indem die gesprochene Sprache zunächst in kleine Einheiten, sogenannte Phoneme, zerlegt wird – die kleinsten hörbaren Einheiten einer Sprache. ASR-Systeme analysieren diese Phoneme im Kontext der umgebenden Phoneme, um Wörter und Sätze zu identifizieren. Moderne Spracherkennungssysteme verwenden Tiefe Künstliche Neuronale Netzwerke, die aus umfangreichen Datenmengen lernen. Sie erkennen Sprachmuster und verstehen komplexe Nuancen wie Betonung und Rhythmus.
Transkriptionstools sind meist webbasiert und erfordern keine spezielle Softwareinstallation. Sie können direkt im Browser oder auf Smartphones verwendet werden. Die Bedienung ist intuitiv: Mit nur wenigen Klicks lassen sich Dateien hochladen und die Transkription starten. Doch worauf sollte man achten, wenn man diese Technologie für sich nutzen möchte? Kriterien für die Auswahl eines Tools können die Genauigkeit der Übertragung, der Umgang mit Datenschutz und auch die Kosten sein.
Genauigkeit
Journalistinnen und Journalisten, die häufig Interviews führen oder Pressekonferenzen begleiten, profitieren stark von der hohen Genauigkeit moderner Transkriptionstools, die selbst komplexe Fachterminologie präzise erfassen können.
Anbieter von Transkriptionstools geben häufig eine Genauigkeitsrate an, die in der Regel durch die Word Error Rate (WER) bestimmt wird. Die WER misst die Fehleranzahl in einer Transkription im Vergleich zu einem Referenztext, indem sie falsch transkribierte, fehlende oder zusätzliche Wörter berücksichtigt. Eine WER von zehn Prozent deutet darauf hin, dass 90 Prozent der Wörter korrekt erfasst wurden.
Populäre Tools wie Trint, Rev oder Descript geben an, Genauigkeitsraten von mehr als 90 Prozent zu erreichen, wobei diese durch Faktoren wie die Qualität der Audioaufnahme und die sprachliche Komplexität beeinflusst werden. Tools, die speziell für bestimmte Sprachen entwickelt wurden, können oft eine bessere Genauigkeit bieten. Dies macht sie besonders wertvoll für Medienschaffende, die Transkriptionen in bestimmten Sprachen benötigen. Beispielsweise hat sich GoSpeech auf deutsche Transkriptionen spezialisiert. Für Journalistinnen und Journalisten, die in einer Vielzahl von Sprachen arbeiten, können Tools wie HappyScribe und Sonix nützlich sein, da beide mehr als 50 verschiedene Sprachen unterstützen.
Die Qualität einer Transkription wird oft durch Faktoren wie Akzente, Dialekte und Fachjargon beeinträchtigt. Moderne Transkriptionstools nutzen adaptive Algorithmen, die sich mit jeder Nutzung besser an spezielle Sprachmuster anpassen, um die Fehlerquote zu senken. Zudem erlauben viele Tools das Anlegen benutzerdefinierter Wörterbücher, sodass Nutzende spezifische Fachbegriffe, Eigennamen und Abkürzungen hinzufügen können, die dann präziser erkannt und transkribiert werden.