Doch bevor ich die getesteten Tools vorstelle: Wem bringen Untertitel und Transkriptionen etwas und warum lohnt sich dieser Aufwand für dich?
(Falls du schon alles über die Notwendigkeit von Untertiteln und Transkriptionen weisst, kannst du hier direkt zum Test springen.)
Wenn du deine Videos mit Untertiteln ergänzt oder für deine Podcasts eine Textalternative erstellst, erreichst du mehr Menschen.
- Du wirst besser gefunden via Suchmaschinen. Google und Co. wissen nur dank Textalternativen, was der Inhalt deines Videos oder deines Audios ist. Hilf den Suchmaschinen zu verstehen, worum es im Film oder Podcast geht – und werde dadurch besser gefunden.
- Mit Bewegtbild gewinnst du die Aufmerksamkeit deiner Followers auf Social Media. Viele User haben auf Social Media den Ton ausgeschaltet. Ohne Untertitel wissen diese nicht, worum es im Video geht – und scrollen weiter. Wenn du Untertitel einblendest, unterstützen die Worte das Bild und du kannst das Interesse der User gewinnen. Anstatt weiterzuscrollen, bleiben sie an deinem Video hängen und schauen es sich vielleicht in voller Länge mit Ton an.
- Ohne Textalternativen schliesst du Menschen aus. Die Weltgesundheitsorganisation WHO geht davon aus, dass jede fünfte Person weltweit eine Behinderung hat. Nicht mitgezählt sind hier ältere Personen, die altersbedingte Einschränkungen haben, oder Menschen mit Migrationshintergrund, die eine andere Sprache sprechen.
Selbst wenn du keine Blindenstöcke oder Hörgeräte verkaufst, ist es falsch zu denken, dass Menschen mit Behinderungen nicht zu deiner Zielgruppe gehören.
Sprache automatisch in Text umwandeln: Darauf kommt es an
Obwohl die Sprachassistenten wie Siri, Alexa oder Google Assistant und auch Speech-to-Text immer besser werden: Perfekt funktionieren diese Tools noch lange nicht.
So schreiben die meisten Anbieter auf ihrer Website, dass ihre Software Sprache zuverlässig in Text umwandelt. Und zwar mit einer bis zu 99-prozentigen Genauigkeit. Das Kleingedruckte dabei: Ein so gutes Ergebnis wird nur erreicht, wenn
- die Aufnahme keine Hintergrundgeräusche enthält,
- immer nur jemand spricht
- und die sprechende Person eine deutliche Aussprache hat
- sowie immer in vollständigen Sätzen spricht.
Je schlechter die Aufnahme, desto ungenauer die Transkription. Oder desto länger brauchst du, um manuell eine Transkription zu erstellen.
Wie die Speech-to-Text-Software mit schlechten Aufnahmen umgeht, ist sehr unterschiedlich. So kommt es im Test vor, dass die Software längere Passagen auslässt, weil es zu viele Störgeräusche gibt. Das bedeutet, dass man diese Stellen manuell transkribieren muss.
Zeit sparen mit Transkriptionssoftware
Trotz dieser Mängel kann dir die Transkriptionssoftware viel Arbeit abnehmen und Zeit ersparen. Beim manuellen Transkribieren hältst du die Aufnahme immer wieder an, um das Gehörte aufzuschreiben. Manchmal musst du dir eine Stelle mehrmals anhören. Das kostet Zeit: Bei einer einstündigen Audioaufnahme kann es mehrere Stunden dauern, bis alles transkribiert ist.
Willst du die Transkription weiterverarbeiten, zum Beispiel als Untertitel für ein Video, ist es sogar noch aufwendiger. Denn bei Untertiteln musst du den Text mit sogenannten Zeitstempeln versehen. Diese Zeitstempel teilen dem Video-Player mit, von wann bis wann welcher Text eingeblendet sein soll.
Ein gutes Transkriptions-Tool erlaubt es dir, den Text in verschiedene Formate zu exportieren. Und später weiterzuverarbeiten.
In diesem Beitrag stelle ich zwei Programme vor: Speechnotes Files und AmberScript. Im Test lade ich jeweils dieselben Audiodateien hoch, um das Ergebnis direkt vergleichen zu können.
Speechnotes Files
Speechnotes Files nutzt die Speech-To-Text-Technologie von Google. Um eine Audiodatei in Text umzuwandeln, benötigt Speechnotes Files ungefähr so viel Zeit, wie die Datei selber dauert. Speechnotes Files verspricht, sofern die Aufnahme ausgezeichnet ist, eine Genauigkeit von über 95%. Was mir in einem Test auffiel:
- Speechnotes Files setzt Satzzeichen.
- Speechnotes Files erkennt Namen von bekannten Personen zu 99%.
- Im Allgemeinen empfinde ich die Genauigkeit als gut, obwohl Speechnotes Files im direkten Vergleich mit AmberScript etwas schlechter abschneidet.
Ich würde hier von einer Genauigkeit von etwa 90% sprechen. Verschluckt eine Sprecherin die Endungen, so wäre es wünschenswert, dass die Maschine dies erkennt und die Endung grammatikalisch korrigiert. Auch Wörter, die je nach Wortart gross oder klein geschrieben sind, muss ich in der manuellen Nachbearbeitung oft korrigieren.
Vorteile von Speechnotes Files
- Relativ schnelle Verarbeitung der Dateien. Im Test dauerte die Verarbeitung nur etwa halb so lange wie die Datei selber.
- Man kann das Transkript als Textdatei oder Untertitel-Datei mit Zeitstempeln herunterladen.
- Datenschutz: Speechnotes verspricht, dass niemand sonst Zugriff auf die Dateien hat und diese sofort entfernt werden, sobald die Transkription abgeschlossen ist.
Was kostet die Nutzung von Speechnotes Files?
- Jede Audiominute kostet 0.10 USD.
- Es können jedoch nur Audiominuten in vordefiniertem Umfang gekauft werden: 45 Minuten, 120 Minuten, 10 Stunden oder 100 Stunden.
AmberScript
AmberScript ist ein Startup-Unternehmen aus Amsterdam und Berlin. Bei der eingesetzten Speech-To-Text-Technologie handelt es sich um eine eigene Entwicklung. Nach Angaben der Macher, weil «es nichts Besseres auf dem Markt gab».
- AmberScript setzt keine Kommas.
- Auch AmberScript erkennt Namen und wichtige politische Begriffe, was mir Recherche-Arbeit abnimmt bei Personen, die ich nicht kenne.
- Die Genauigkeit von AmberScript ist sehr hoch, so lange die Qualität der Audiodatei gut ist.
- Bei Dateien in schlechterer Qualität lässt AmberScript weniger gut verständliche Passagen (teilweise bis zu 30-40 Sekunden) komplett weg, macht also gar nicht erst den Versuch, zumindest die verständlichen Wörter zu transkribieren.
Vorteile von AmberScript
- Extrem schnelle Verarbeitung der Dateien. Eine Audiodatei von 30 Minuten Dauer war innert drei Minuten transkribiert.
- Die Transkriptionen lassen sich als Word, JSON, SRT, VTT, EBU-STL oder reine Textdatei exportieren.
- Beim Export gibt es verschiedene Optionen, um zum Beispiel Zeitstempel oder Sprecherwechsel ein- oder auszuschliessen.
- Zudem stellt AmberScript einen eigenen Editor zur Verfügung, mit dem das Transkript manuell nachbearbeitet werden kann.
Was kostet die Nutzung von AmberScript?
- Es gibt unterschiedliche Preispläne bei AmberScript: Man kann pro Stunde Audiominuten erwerben, wobei eine Audiostunde 10 Dollar kostet. Eine Audiominute kostet somit etwa 16 Cents.
- Bei den Monatsplänen gibt es entweder drei Stunden für 25 Dollar oder fünf Stunden für 40. Beim Drei-Stunden-Abo kostet jede Audiominute etwa 14 Cents, beim Fünf-Stunden-Abo kostet jede Audiominute etwa 13 Cents.
Fazit
Was die Genauigkeit angeht, überzeugt mich AmberScript etwas mehr als Speechnotes Files. Die fehlenden Kommas sind rasch gesetzt, dafür hat man mit dem Editor ein Tool zur Verfügung, das einem viele Optionen in der Nachbearbeitung ermöglicht.
Eine absolute Genauigkeit bei automatischen Transkriptionen ist nach wie vor nicht möglich, so dass es auf jeden Fall eine manuelle Nachbearbeitung braucht. Tools wie AmberScript und Speechnotes Files erleichtern die Arbeit aber enorm, so dass es heute einfacher und günstiger ist, Textalternativen für Audio und Video zu erstellen.