Mit der aktuellen Schwemme an generativen KI-Modellen ist das Transkribieren von Videos und Audios extrem viel einfacher, schneller und besser geworden. Hier eine aktuelle Übersicht über drei Tools, die auf Knopfdruck Transkripte erstellen.

Englisch (und viele andere Sprachen): Descript

Für englische Videos und Audio-Recordings verwende ich gerne Descript. Die Resultate sind akkurat und sobald ich ein Transkript habe, kann ich den ganzen Video-Audio-Edit-Prozess anhand des Textes vornehmen.

Wenn ich Text lösche, dann lösche und schneide ich auch die entsprechende Stelle auf der Video- oder Podcast-Timeline. Das geht fix und ganz ehrlich: es ist viel einfacher, die Übersicht über ein Recording zu behalten, wenn man sich am Text orientiert und nicht ständig in der Timeline scrubben muss.

Auch deutsche Recordings werden sauber transkribiert, allerdings braucht es meiner Erfahrung nach noch etwas Kontrolle 🙂

Das Bild zeigt einen Screenshot mit einem offenen Video-Podcast, den ich in Descript bearbeite.
Descript transkribiert und schneidet Podcasts oder Videos in einem einzigen genialen Workflow.

Deutsch: MacWhisper

MacWhisper ist eine famose kleine App, die auf das Audio-Sprachmodell «Whisper» von OpenAI zugreift. Whisper «versteht» Audio-Recordings mit einer Robustheit und Genauigkeit, ähnlich dem menschlichem Niveau. Sagt zumindest OpenAI.

Wenn ich mir MacWhisper ansehe, dann kann ich das bestätigen. Für die deutsche Sprache ist es momentan wohl schlichtweg das beste Modell.

MacWhisper macht dabei nichts anderes, als Whisper in bester Weise auf den Mac zu holen. Das Sprach-Modell speichert man lokal, sodass man Transkripte auch ohne Online-Verbindung anlegen kann.

Das Bild zeigt einen Screenshot von MacWhisper, mit dem ich gerade Untertitel für einen Podcast erstelle.
MacWhisper holt das momentan wohl beste Sprachmodell für Audio-Transkriptionen auf den Mac.

Schweizerdeutsch

Kleiner Tipp noch für schweizerdeutsche Dialekte. Während Descript auch beim «einfachen», deutsch-nahen Zürcher Dialekt scheitert, liefert Whisper ein hervorragendes Transkript. Ob das mit etwas kniffligeren Dialekten wie dem Bern- oder Baseldeutschen oder gar dem Bündner oder Walliser Dialekt funktioniert, kann ich als Zürcher leider nicht testen.

Wer dafür eine Lösung braucht, ist vielleicht mit Töggl gut bedient. Das Tool wurde speziell für Transkriptionen aus Schweizer Dialekten gemacht. Es verspricht, alle CH-Dialekte sauber zu erkennen. Für den Zürcher Dialekt kann ich das sehr wohl bestätigen. Der wird problemlos umgesetzt.

Vielleicht gibt es ja Schweizer Leserinnen oder Leser, die das auch gerne mal mit anderen Dialekten ausprobieren und ihre Erfahrungen hier in die Kommentare schreiben.

Dieser Beitrag wurde zuerst am 2023-10-22T17:31:45 publiziert unter https://publishing.blog/videos-transkribieren-auf-dem-mac-englisch-deutsch-schweizerdeutsch/.