Sony setzt auf verbesserte Lippenanimation durch KI-Tools

Der Multimediakonzern Sony hat vor Kurzem angekündigt, künftig ein automatisches System zur Lippensynchronisation in der Anime-Produktion einzusetzen, um diese effizienter zu gestalten. Wir fassen zusammen.

Technologie seit 2021 in Entwicklung

Dem Unternehmensbericht 2025 zufolge entwickelt Sony diese Technologie bereits seit 2021 und hat sie mittlerweile in vier Anime-Titeln verwendet. Das aktuellste Beispiel ist der fünfeinhalbminütige Kurzfilm »Utano ☆ Princesama TABOO NIGHT XXXX«, der im Mai 2025 veröffentlicht wurde.

Werbung

Bereits im Frühjahr 2025 wurde ein Patent publik, das vermutlich in Zusammenhang mit dieser Engine steht. Die im August 2023 eingereichte und derzeit in Japan geprüfte Anmeldung mit der Nummer 2025-046683 beschreibt ein System, das sowohl eine Originaldatei (Audio oder Text) als auch deren Übersetzung nutzt und die darin enthaltenen Phoneme in passende Lippenbewegungen umwandelt.

Ein Phonem ist der kleinste bedeutungsunterscheidende Laut einer Sprache. Die Technologie erzeugt Lippenbewegungen basierend auf diesen Lauten, analysiert anschließend deren Dauer und berechnet einen Ähnlichkeitswert, der zeigt, wie gut die neuen Mundformen mit denen der Originaldatei übereinstimmen.

Laut Sony soll dies helfen, Übersetzungsentscheidungen zu verbessern und »das Unbehagen von Spielern und Zuschauern audiovisueller Werke« zu reduzieren. Bei Anime ließen sich so unterschiedliche Laute bestimmten Lippenbewegungen zuordnen, wodurch Animatoren passendere Referenzen erhalten könnten.

Dies soll die Arbeitsbelastung der Mitwirkenden an einem Anime deutlich reduzieren, weshalb sich Sony insgesamt sehr aufgeschlossen gegenüber künstlicher Intelligenz zeigte und sie als »Motor für positive Veränderungen« sowie »kreativen Partner« bezeichnete – überzeugt davon, dass KI die Menschen unterstützen wird.

Mehr zum Thema:

Beispiel-Kurzfilm:

Dieses externe Video stammt von YouTube.

Mehr Informationen

Via Sony Unternehmensbericht 2025
© Miki Yoshikawa, Kodansha / A Couple of Cuckoos Production Committee

Artikel teilen

Newsticker

Dieser Artikel beinhaltet Affiliate-Links. Durch den Kauf der Produkte über unsere Links erhalten wir eine kleine Provision. Mehr dazu.

Auch interessant?

Diskutiere mit!

guest
20 Kommentare
Bewertung
Neueste Älteste
Inline Feedbacks
View all comments
Robin

No KI!😕

Natsu90

Komplett gegen KI im Anime-Bereich zu sein, sollte man nicht, denn aufhalten kann man es sowieso nicht. Und noch etwas: Diejenigen, die immer auf diesem Trip sind – könnt ihr bei manchen Sachen im Animationsbereich wirklich den großen Unterschied erkennen? Als Unterstützungsmittel sehe ich das nicht immer… Ja, die Synchronisation ist auch immer ein besonders heikler Bereich, aber im Großen und Ganzen ist die Entwicklung in der Anime-Branche nicht aufzuhalten. Übrigens, wer diese Anti-KI-Haltung wirklich lebt, dürfte selbst keine Form von KI im Alltag oder bei der Arbeit nutzen. Ich benutze sie jedoch, deshalb kann ich mich schlecht daran halten, auf diesen Anti-KI-Zug aufzuspringen. 🤔🤷‍♀️

KnSNaru

Die Digitaltechnik schreitet ohne die KI überhaupt nicht mehr voran.

Selbst die Hardwareindustrie ist so dermaßen an ihr Limit geraten, gerade in Bezug auf ihre Lithographie, dass nebst einer stetigen Zunahme an Brechstangen und der Kaskadierung von immer mehreren Based-Clustern auch bisher ungeahnte Topologien in der Branch Predictoion herhalten müssen – neuere, verbesserte KI-Algorythmen.

Eine Grafikkarte, diese ohne eine einer zunehmenden Power Consumption mehr Leistungsfähigkeit versprecher, kann dies in nur noch durch die KI bewältigen, ergo Fake-Frames.

Nowa

Falsch. Auch in der Hardware gibt es viele neue Ansätze. Diese sind nur noch nicht in der Durchbruch-Phase.
Aber Lichtfluss statt Stromfluss, Graphen etc. werden die Hardware erneut revolutionieren. Da ist so viel vielversprechendes in der Pipeline, dass eines zünden wird.

Guts

KI sorgt dafür, dass die Menschheit weiter verblödet, für den einfachsten Unfug fragen die Leute mittlerweile eine KI und hinterfragen rein gar nichts mehr. Das wird uns noch böse auf die Füße fallen, sowohl wirtschaftlich als auch politisch, besonders wenn man sich anschaut von welcher politischen Ausrichtung KI hauptsächlich benutzt/missbraucht wird.

Natsu90

Das ist zu oberflächlich und zu simpel argumentiert. Ganz einfach ausgedrückt: Wer ist jetzt das »Böse« – die neue Technologie oder der Mensch, der sie wie in der Geschichte missbraucht? Wir könnten jetzt Beispiele aufzählen, wie KI in der breiten Öffentlichkeit missbraucht wird, aber das muss man den Leuten hier, glaube ich, nicht erzählen. Und diese alte Leier, dass die böse KI die Menschen verblödet, kommt doch wieder darauf an, wie jeder Einzelne neue Technologien nutzt.

Ich

Aber es ist doch darauf ausgelegt. Man stellt der KI eine Frage und bekommt ein Ergebnis geliefert – und das wird doch im Großteil der Fälle auch nicht hinterfragt, sondern einfach akzeptiert.

Es gibt doch kaum Leute, die das wirklich nachprüfen und abgleichen. Die nehmen das so wie es ist. Es geht dabei nicht darum, dass KI ‚böse‘ ist. Das ist die simple reale Anwendungsweise.

Jetzt kann man sagen, dass die Nutzer in der Verantwortung sind, es nachzuprüfen – das wird aber nicht gemacht weil es ja Aufwand bedeutet. Und den will man ja eben nicht – daher fragt man ja die KI; die soll das ja machen.

10Minutes

Frag mich wie Menschen zu einer Zeit ohne K.I. dann verblödet sind?
Nur vor dem Bildschirm sitzen sorgt für viereckige Augen.
Man verblödet wenn man nur vor dem Fernseher/Computer sitzt,
Smartphone Zombies können wir auch dazu zählen.

Recherche dürften damals einige, in der Schulzeit, auch nur Wikipedia genutzt haben, mit etwas Umformulierung, und mehr auch nicht.

»Och, ich weiß nicht wie ich was übersetzen soll« *nutzt Google Übersetzer in den frühen 2000er*

Und jetzt kommt das beste, das alles OHNE K.I.

Will ich K.I. in Anime sehen? Nein!
Gib ich der Technik die Schuld? Nein! Was kann die Technik dafür das die Missbraucht wird.
Und für missbräuche suche ich difinitiv nicht ein Sündenbock, so wie es viele andere machen, in vielen anderen Bereichen, wie z.B.

– Amoklauf = Ballerpiele
– Mann fällt über Frau her = Sie war »aufreizend« gekleidet.
– Jemand vergeht sich an einem Mädchen im Teenager Alter (in der Pubertät) = Anime mit L*li Inhalt/NSFW Games mit L*li.
– Leute verlieren ihren Arbeitsplatz = Ausschließlich K.I., andere Faktoren werden ignoriert.
Könnte mir noch etwas mehr Arbeit machen, aber neeee. 😛

*Wer meint hier wieder die P-Karte zücken zu wollen, tut euch einen Gefallen und informiert euch erstmal über die WIRKLICHE Bedeutung des Wortes/der Wörter.

Mana

Das lange vorhandene Probem ist eben die fehlende Aufklärung und das von selbst die wenigsten solche Dinge machen und lernen -was natürlich schon auch mit gewisse Absicht-…schließlich ist eigendlich hinreichend bekannt dass es auch drauf ankommt mit was für Infos eben jene KIs etc. gefüttert wurden, und das man dazu schon bewusst einseitig manipulierte Plattformen lange nimmt ist wenn man etwas sich informiert ja auch nichts neues.

Und nur bei der Sache bleibt es wenns um manipulieren, Wahrheiten verdrehen usw ja auch nicht….dass man das Fach und die Vergangenheit mit als »Geschichte« bezeichnet -eben auch selbiges was man mit für erfundene andere Bücher/Filme etc ebenso verwendet- ist ja jetzt auch, wenn man etwas nachdenkt auch kein Zufall und sollte nahezu für jeden logisch erscheinen, dass daran was stinkt.
Ebenso wie die Tatsache…das ja egal um was für eine Sache es geht…«wenn man nicht selbst dabei war, kann einen immer sonstwas erzählt werden, deswegen muss das noch längst nicht alles so, oder überhaupt stimmen…« – danach kann man sonstwas behaupten bzw bewusst falsches festgehalten usw werden…Hinreichend bekannt dürfte ja auch die Aussage »Die Gewinner schreiben die Geschichte« sein.

Ich

Ähm … Hä? Das klingt für mich völlig nutzlos.

Laut Sony soll dies helfen, Übersetzungsentscheidungen zu verbessern und »das Unbehagen von Spielern und Zuschauern audiovisueller Werke« zu reduzieren.

Welches ‚Unbehagen‘ denn? Wo sollte ich da Unbehangen verspühren? Und es soll ‚helfen, Übersetzungsentscheidungen zu verbessern‘? Also greift das in den Übersetzungsprozess ein nur damit irgendwelche Lippenbewegungen passen? Das scheint mir doch völlig unnötig zu sein.

Dies soll die Arbeitsbelastung der Mitwirkenden an einem Anime deutlich reduzieren

Wer wird da wie entlastet?

Wenn den Übersetzern da irgendeine KI dazwischenfunkt, scheint mir das für die eher störend zu sein und hält sie doch eher auf, wenn man dann wieder Sätze umstellen muss; das klingt eher nach Mehraufwand für mich.

Oder geht es um die Leute im Studio? Da passt man doch nicht die Lippenbewegungen für allerlei Sprachen neu an. Oder doch? Das wäre mir neu. Und ist doch auch gar nicht nötig.

Ich verstehe nicht, was das nun soll … Also ich verstehe die Erklärung hier, ja. Aber der Zweck/Nutzen erschließt sich mir nicht.

Natsu90

Kostenreduzierung ganz einfach erklärt!

KnSNaru

Als ehemaliger Translator und ehemaliger Editor für Anime-Fansubs widerspreche ich Dir in Deinem Vorurteil, das einzig und allein in dem Bashing auf das AI abzielt.

Ein Editor ist um ein Viellfaches entlastet, wenn für ihn ein Typesetter und ein Translator die Vorarbeitet geleistet haben.

Ich

das einzig und allein in dem Bashing auf das AI abzielt.

Ich weiß zwar nicht was ‚Bashing‘ bedeuten soll, aber ich stelle einfach nur Fragen.

Man stellt hier eine Erklärung vor, aber die sorgt bei mir für mehr Fragen als wirkliche Aufklärung.

Ein Editor ist um ein Viellfaches entlastet, wenn für ihn ein Typesetter und ein Translator die Vorarbeitet geleistet haben.

Aber hier geht es doch darum, dass Lippenbewegungen mit den ausgesprochenen Worten (möglichst) übereinstimmen sollen. Und dafür soll die KI analysieren und im Prinzip Vorschläge machen. Wenn dann aber nun ein Übersetzer respektive eine Übersetzerin da eh schon dransitzt und daran arbeitet … und dann kommt dann das nun man soll das umstellen – nur damit es etwas besser zu irgendwelchen Lippenbewegungen passt? Wozu?

Es ist ja nicht so, dass die Lippensynchros so grottig sind wie bei alten Godzilla Fimen, wo entweder die Schauspieler nicht mehr reden, aber der gesprochene Satz weiter ertönt oder der gesprochene Satz zu Ende ist, aber die Lippenbewegungen noch weitergehen (ich fand das ja immer ganz drollig, hahaha!).

Ich kann einfach nicht nachvollziehen, wem das jetzt helfen soll. Und auf welcher Ebene.

KnSNaru

… und dann kommt dann das nun man soll das umstellen – nur damit es etwas besser zu irgendwelchen Lippenbewegungen passt? Wozu?

In manchen Situationen passen Lippenbewegung und Ausgesprochenes nicht zueinander, entweder in der Zeitintervalle oder in der Tonart, weil ursprünglich ein anerer Ausgangstext vorgesehen war.

Gerade bei den GerDubs nimmt das eine sehr häufige Gewichtung ein und da der gesprochene Text sowieso meistens frei erfunden ist, abweicht von dem Untertitel, ist es egal, was die KI als Ergebnis ausspucke, solange es sinngemäß ist.

Primordus

Ich bleib dabei letztendlich heißt es es soll entlasten aber es wird immer eher zu Entlassungen kommen Filme wie Terminator und I robot haben es gezeigt und die Menschheit endet irgendwann wie bei Wall-E ich Bleibe dabei und bin gegen KI, auch wenn es nicht mehr aufzuhalten ist, denn die Dummheit der Menschheit wird immer solange sie existiert bestehen.

Guts

Das oben verlinkte Beispielvideo hat voll die schlechte Lippensynchronität. Da entwickeln die also schon so lang dran und dann kommt da nur so etwas bei rum…

Kruemel

Jajaja, KI soll ja immer nur unterstützend wirken. Immer dasselbe Gesabbel für »Wir wollen Gelder einsparen und Mitarbeiter abbauen« – ich kann es nicht mehr hören/lesen

Ich kenne viele Menschen persönlich, die jahrelang als Übersetzer gearbeitet haben, und jetzt auf Arbeitssuche sind, weil die in der Firma genutzte KI, deren Arbeit »unterstützt« hat

Das verlinkte Video fand ich jetzt nicht sonderlich hilfreich für die Thematik. Denn es hat mir eher gezeigt, dass sich die genutzte Technik negativ auswirkt.

KnSNaru

Sony bringt Kakkou no Iinazuke-Lippensynchronisation in die Anime-Produktion

Unterstütze ich voll! 👍

Noodle

Verstehe ich das richtig:

Wenn die Person in der Szene im japanischen »Baka!« sagt, und dann der deutsche Text mit »Idiot!« übersetzt wird, dann benutzt das Programm automatisch Mundstellungen, die den deutschen Lauten entsprechen in der Synkronisation?

Es klingt erstmal sehr entlastend für Synkronstudios, wenn die nicht mehr durch fixe »Münder« in der Wahl ihrer Übersetzung begrenzt wären.
Das muss eine ziemliche Arbeit sein, Übersetzungen zu wählen die auch zu japanischen Mündern passen.

Und so lange die Freiheit der Übersetzungen nicht dadurch zerstört wird, weil das Programm Übersetzung und Mundwahl zwingend vorgibt,klingt es eher positiv.

Denn viele Synkronisationen erhalten ihren Zauber doch erst durch die kreative Arbeit der Übersetzer, die kulturelle Eigenheiten stimmig in die Texte einfließen lassen, sowie diePerformance der Künstler, die ihr Herzblut da rein stecken.

Aber es bleibt die allgegenwärtige Gefahr, dass aus der »Entlastung« durch die KI nach und nach eine »Entlassung« wegen KI folgt, weil die KI den Job zwar wahrnehmbar schlechter macht, aber dafür weniger kostet.

Guts

Kann aber zu sehr merkwürdigen Ergebnissen führen, wenn man einfach die Lippenbewegungen ändert, denn die Lippenbewegungen und die Gestik müssen harmonieren, dass wird im Animationsprozess immer mit beachtet. Gab da schon Versuche bei realen Filmaufnahmen, dort hat man die Lippen an die jeweiligen Sprachen angepasst, sah richtig komisch aus, weil der Kopf sich genauso bewegt hat wie vorher aber das Gesagte und die Lippenbewegungen anders waren. Bei Anime ist das dann auch nicht zu gebrauchen, wenn die Figur den Kopf beim Sprechen bewegt.

Und die deutschen Synchros bekommen das mit der Lippensynchronität schon seit vielen vielen Jahrzehnten problemlos hin, sogar besser als die Japaner, dafür braucht es also keine KI.