Im letzten Beitrag habe ich darüber geschrieben, wie man AI-Avatare für Erklärvideos einsetzen kann. Ein Nebenschauplatz dieses Tools ist die Möglichkeit, die AI mit Text zu füttern, aus dem das Tool dann eine gesprochene Stimme generiert. Text-to-Speech ist dabei nichts Neues, sondern schon stark in unseren Alltag verbaut.

Text to Speech

Google hat schon seit Jahren eine eigene Bibliothek für die Text-to-Speech-Technologie. Wie bei Google üblich können sich Tools diese Bibliothek über eine API zunutze machen. Zurzeit sind hier 380+ Stimmen in 50+ Sprachen und Sprachvarianten digitalisiert. Mein AI-Video-Tool Synthesia verwendet diese API, um den Avataren eine Stimme zu verleihen. Klang das vor ein paar Jahren noch sehr maschinell und blechern, haben die Stimmen heute einen täuschend echten Klang und die Aussprache wartet mit Artikulation und einer natürlichen Sprachmelodie auf. Man muss teilweise schon genau hinhören, um die digitale Stimme zu erkennen.

Text-to-Speech ist wichtig, gerade auch, um Content für Menschen mit Leseschwächen oder Seheinschränkungen zugänglich zu machen. Viele Webseiten bieten inzwischen eine Sprachausgabe an, bei offiziellen Informationsportalen ist es teilweise sogar schon Pflicht. Man findet Text-to-Speech aber auch in vielen Tools – etwas in Readit-Later-Tools, in denen man Webseiten und Informationen speichern kann, um sie später zu lesen. Oder eben zu hören.

Speech to Text

Neben Text-to-Speech gewinnt auch der umgekehrte Weg an Bedeutung. Ich spreche etwas ins Mikrofon und die AI erzeugt mir daraus den Text, eine Transkription. Gerade im Videobereich ist das heute essenziell. Nicht nur aus Gründen der Barrierefreiheit, sondern auch, weil die meisten Menschen ihr Handy (Gott sei Dank) lautlos geschaltet haben. Da wäre es doch schade, wenn YouTube-Videos, TikTok-Shorts oder Insta-Reels keine Beachtung fänden, weil man den Ton nicht hört. Die Abhilfe: Alle diese Plattformen transkribieren Video auf Wunsch automatisch und blenden Untertitel ein. So kann man Videos auch mitlesen, ohne den Sitznachbarn zu stören. Der Weg zur Übersetzung der Untertitel ist dabei natürlich nicht mehr weit.

Audiate

Untertitelungen anfertigen kann auch Audiate von Techsmith. Techsmith ist vor allem im E-Learning-Bereich bekannt für sein Video-Tool namens Camtasia. Mit Camtasia und Audiate kann ich nun über das Audio mein Video schneiden. Und das geht so:

Nehmen wir mal an, es handelt sich um ein YouTube-Tutorial, in dem ich die Funktionen einer Software am Bildschirm erkläre. Ein Screencast also. Zunächst erstellt Audiate von der Tonspur meines Videos eine Transkription. Diese wird mir mit Zeitstempeln angezeigt. Darin sehe ich jetzt alle Uhms und Ähs, die zu langen Pausen oder auch ganze Sätze, wo ich mich beim Kommentar irgendwie verrannt habe. Normalerweise müsste ich das ganze Video 1:1 durchschauen, um diese Stellen zu erkennen. In der Audio-Transkription sehe ich sie als Text vor mir.

Nun kann ich Audiate tatsächlich damit beginnen, einzelne Wörter oder auch ganze Sätze zu löschen. All diese Cuts werden auch als Schnitt in der Video-Timeline ausgeführt. So habe ich in meinem Video im Nu alle sprachlichen Schwachstellen gelöscht. Natürlich muss ich die Qualität der Schnitte noch kontrollieren, der Rohschnitt ist aber um Längen schneller erledigt als bisher.

Descript

Descript geht noch einen Schritt weiter. Descript kann nämlich Textstellen nicht nur löschen, sondern auch ergänzen. Und zwar mit meiner eigenen Stimme!

Descript erstellt wie Audiate Transkriptionen. Der Clou: wenn ich mich im Video versprochen habe, dann bügelt mir das Descript mit meiner Stimme wieder glatt. Ich kann meinen Off-Kommentar im Video um einzelne Worte oder auch ganze Passagen ergänzen. Diesen Vorgang nennt man «overdubbing» und es ist nur einer der Tricks, den Descript auf Lager hat.

Denken wir nämlich noch ein wenig weiter: Wenn ich mit Synthesia schon meinen Video-Avatar erstellen kann, dann könnte ich Descript doch nutzen, um dem Avatar auch gleich noch meine eigene Stimme zu geben. Ich möchte also nicht auf die von Google synthetisierte Stimmen-Bibliothek zugreifen, sondern Text to Speech mit meiner eigenen Stimme machen. Und genau das geht mit Descript!

Nun werden Sie sich womöglich denken: «Warum das alles? Ich lese den Text doch einfach vor, nehme das auf und gut is’!».

Klar, kann ich machen. Doch wer hat die Zeit, das Equipment und vor allem den richtigen Sound in der Stimme? Mit einem Stimm-Avatar wäre das kein Problem. Der übernimmt das. Und er spricht dazu noch alle Sprachen dieser Welt.

Wie gesagt: Descript kann das. Wie bei Synthesia muss ich das Tool trainieren – dieses Mal aber nicht mit meiner Mimik, sondern mit meiner Stimme. Danach kann ich Descript beliebige Texte vorlesen lassen – meine Stimme und Sprachmelodie wird dabei von der AI schon ziemlich perfekt wiedergegeben. Fairerweise muss man sagen, dass das vorderhand primär in Englisch funktioniert. Andere Sprachen bringen die AI noch etwas ins Ruckeln.

Was kommt noch alles?

Auch im Audio-Bereich werden wir in den nächsten Jahren noch gewaltige AI-Fortschritte sehen. Künstlich erzeugte Stimmen werden in unserem Alltag Einzug halten. Auch hier werden die Systeme bald nicht mehr nur aus vorhandenen Stimmbibliotheken Audios erstellen. Vielmehr werden sie eigene Stimmen erzeugen, eigenen Content kreieren können.

Diese Stimmen werden uns bei Durchsagen im Bahnhof begleiten, als Radiostimmen beim Autofahren. Als Konversationspartner am Telefon. Oder als Sprach-Interface in Anwendungen aller Art auf dem Computer.

Dieser Beitrag wurde zuerst am 2023-03-19T09:10:00 publiziert unter https://publishing.blog/ki-beim-audio-editing/.