Video ist im wahrsten Sinne des Wortes ein ausdrucksstarkes Medium. Die emotionale Bindung zu einem Video-Inhalt entsteht vor allem dann, wenn ein Mensch am Bildschirm erscheint, er einem eine Geschichte erzählt oder ein Thema erklärt.

Nichts erzeugt so viel Bindung wie ein Gesicht

Es ist ein ungeschriebenes Gesetz unter Videomachern, dass es sehr viel aufwendiger ist, eine erinnerungswürdige Szene zu drehen, wenn einem keine Schauspieler, sondern nur Gebäude, Landschaften oder sonstige Non-Face-Clips zur Verfügung stehen. Oder umgekehrt: Ein ausdrucksstarkes Gesicht macht schon die Hälfte der Story aus. Dementsprechend hoch ist aber auch der Aufwand, den man betreiben muss, um dieses Gesicht gut in Szene zu setzen. Die Stimme, also der Ton, muss klar und deutlich rüberkommen. Beliebt sind sonore Radiosprecher-Stimmen. Die Lautstärke muss stimmen. Die Betonung und die Aussprache sind wichtig. Das Erzähltempo darf nicht zu schnell, aber auch nicht zu langsam sein. Und dann das Licht: das Gesicht muss gut ausgeleuchtet sein, darf aber nicht überstrahlen. Es soll sich vom Hintergrund absetzen, aber nicht hervortreten. Beleuchtung von unten wirkt eher gespenstisch, Beleuchtung von oben ist bei den meisten Menschen unvorteilhaft, da der dünne Haaransatz und allfällige Stirnfalten gnadenlos zur Geltung kommen. Licht von der Seite erzeugt – richtig eingesetzt – spannende Konturen. Falsch eingesetzt betont es Doppelkinne und grosse Nasen, während sich die Augen bedrohlich in dunkle Höhlen zurückziehen. Bewährt hat sich ein Mix von drei Lichtern, die man zu einer perfekten 3-Punkt-Beleuchtung zusammenstellt. Wenn Ton und Licht stimmen, dann braucht es noch ein wenig Schminke und schon ist das Gesicht video- und einsatzbereit.

Schon?

Viel Produktionsaufwand

Bis man das alles perfekt eingerichtet hat, vergeht viel Zeit. Vor allem, wenn man ad hoc filmen möchte und nicht auf eine fixe Studioausrüstung zurückgreifen kann. Es braucht viel Hardware in Form von Kameras, Miks und Leuchten. Es braucht viel Know-how, um alle Komponenten optimal in Einklang zu bringen. Und es braucht im Editing nochmals ganz viel Übung, um das perfekte Setting auch perfekt zu schneiden.

Da wäre es doch schön, wenn man diesen Aufwand minimieren könnte. Genau das verspricht ein AI-Tool namens synthesia.io. Ich verwende es seit geraumer Zeit gerne für Erklärvideos, wo die eigentliche Bühne nicht durch mich, sondern durch ein Thema besetzt ist. Den Avatar braucht es, um dieses Thema zu beschreiben, die Story zu erzählen. Der Avatar sitzt dabei aber gerne am Rand der Bühne, womöglich in einem kleinen Bild-im-Bild. Der Avatar gibt der Erzählstimme eine visuelle Präsenz. Die Hauptattraktion ist aber ein anderes Video, eine Präsentation oder eine Animation, die auf der Bühne abläuft.

Eine Videoproduktion mit synthesia.io

Schauen wir uns doch mal an einem Beispiel an, wie ich mit Synthesia arbeite.

Gestalte eine Szene

Am Anfang steht das Thema. Ein Video. Eine Animation. Eine PowerPoint-Präsentation. Ein geteiltes Bildschirmfenster. Das ist die eigentliche Geschichte, die ich mit Avataren kommentieren lasse. Ich lege in Synthesia also eine oder mehrere Szenen an, in der ich diese bereits vorliegenden Inhalte platziere. Mir stehen viele Templates zur Verfügung, ich kann aber auch mein ganz eigenes Design anlegen. In jeder Szene lege ich auch schon fest, wo der Avatar sichtbar wird. Entweder prominent in der Mitte oder in einem kleinen Kreis am Rande der Bühne oder auch mal gar nicht.

Die Arbeit im Editor ist intuitiv und übersichtlich.

Wähle einen Avatar

Nun kann ich den passenden Avatar auswählen. Synthesia bietet zurzeit über 100 Avatare an. Fast wöchentlich kommen neue hinzu. Darunter finden sich generische Männer und Frauen jeglicher Couleur, aber auch spezielle Avatare wie Köche, Piloten oder auch Santa Claus (und Ms. Santa). Die Avatare wurden mit echten Schauspieler:innen produziert, die vor Kamera unter perfekten Bedingungen gefilmt und von denen Tausende von Videoframes gespeichert wurden. Die AI generiert dann aus diesen Frames die Lippenbewegungen, die zu meinem Text passen.

 

In Synthesia findet man für jeden Geschmack einen Avatar.

Gib ihm einen Text

Jetzt kommt der Text, bzw. die Stimme hinzu. In Form eines geschriebenen Skripts, das ich jeder Szene hinzufüge. Insgesamt stehen mehr als 120 Sprachen und Stimmen zur Verfügung. Synthesia erkennt die Sprache meiner Texte automatisch und wählt schon mal eine passende Stimme.

Done

Das wars. Nun rendert mir Synthesia das fertige Video. Möchte ich den Text ändern, mach ich das schnell und rendere das Video erneut. Das Video in eine andere Sprache übersetzen? Nichts einfacher als das. Text in einer anderen Sprache eingeben, Stimme und Avatar wählen, fertig. Wir der Text nicht optimal ausgesprochen? Dann greife ich mit speziellen Commands in den Text ein – ich kann zum Beispiel ganz gezielt Pausen setzen, um den Redefluss zu steuern. Die neueren Avatare lassen es sogar zu, dass ich über solche Commands kleine Gesten einbaue. Ein Lächeln, ein Nicken, ein fragender Blick. Und wenn mir etwas nicht gefällt, dann wähle ich einfach eine andere Stimme, einen anderen Avatar. Zu jeder Tages- und Nachtzeit, ich brauch nur einen Browser und eine Netzwerkverbindung.

Nicht immer, aber immer öfter

Synthesia eignet sich nicht für jedes Video. Da, wo ein Mensch in Fleisch und Blut wichtig ist, sollte man ihn keinesfalls durch einen Avatar ersetzen. Manchmal ist es wichtig, dass das Gesicht vor der Kamera eine emotionale Bindung zum Zuschauer aufbaut. Sei es, um besonders viel Effekt zu erzeugen. Oder sei es es schlichtweg darum, weil der Brand des Gesichts wichtig ist. Kochvideos mit Jamie Oliver leben von Jamie in der Küche – er wäre nie durch einen Avatar ersetzbar. Für ein Erklärvideo, wo ein Thema in Form von Slides und Animationen im Vordergrund steht, ist ein Avatar aber völlig ausreichend. Man sollte auch die Entwicklung der Technologie nicht unterschätzen. Die ist nämlich rasant. Video-Avatare sind heute schon überzeugend. Mit synthesia.io kann ich heute schon meinen persönlichen Video-Avatar erzeugen. Das kostet ein bisschen was und bedeutet Aufwand: ich muss das Trainingsmaterial für die AI nämlich unter möglichst optimalen Bedingungen aufnehmen: Ton, Licht, Mimik. In Zukunft wird das alles einfacher und die Avatare werden kaum mehr von den Originalen unterscheidbar sein. Das birgt ganz viel Potenzial, aber natürlich auch einige Gefahren. So wie bei jedem AI-Tool, das zur Zeit auf unserem Radar erscheint.

P.S. synthesia.io lässt sich mit descript.com verbinden. Damit bekommt man nicht nur ein eigenes AI-Gesicht, sondern auch noch eine eigene AI-Stimme. Denn dieser Dienst ermöglicht es, aus antrainierten Sprachfetzen eine durchgehende virtuelle Stimme zu erzeugen. Und damit wären wir bei der Frage, was AI im Audiobereich bieten kann. Dazu mehr im nächsten Beitrag.

Dieser Beitrag wurde zuerst am 2023-03-16T13:53:20 publiziert unter https://publishing.blog/ki-in-videos/.