Sony setzt auf verbesserte Lippenanimation durch KI-Tools

Der Multimediakonzern Sony hat vor Kurzem angekündigt, künftig ein automatisches System zur Lippensynchronisation in der Anime-Produktion einzusetzen, um diese effizienter zu gestalten. Wir fassen zusammen.

Technologie seit 2021 in Entwicklung

Dem Unternehmensbericht 2025 zufolge entwickelt Sony diese Technologie bereits seit 2021 und hat sie mittlerweile in vier Anime-Titeln verwendet. Das aktuellste Beispiel ist der fünfeinhalbminütige Kurzfilm »Utano ☆ Princesama TABOO NIGHT XXXX«, der im Mai 2025 veröffentlicht wurde.

Werbung

Bereits im Frühjahr 2025 wurde ein Patent publik, das vermutlich in Zusammenhang mit dieser Engine steht. Die im August 2023 eingereichte und derzeit in Japan geprüfte Anmeldung mit der Nummer 2025-046683 beschreibt ein System, das sowohl eine Originaldatei (Audio oder Text) als auch deren Übersetzung nutzt und die darin enthaltenen Phoneme in passende Lippenbewegungen umwandelt.

Ein Phonem ist der kleinste bedeutungsunterscheidende Laut einer Sprache. Die Technologie erzeugt Lippenbewegungen basierend auf diesen Lauten, analysiert anschließend deren Dauer und berechnet einen Ähnlichkeitswert, der zeigt, wie gut die neuen Mundformen mit denen der Originaldatei übereinstimmen.

Laut Sony soll dies helfen, Übersetzungsentscheidungen zu verbessern und »das Unbehagen von Spielern und Zuschauern audiovisueller Werke« zu reduzieren. Bei Anime ließen sich so unterschiedliche Laute bestimmten Lippenbewegungen zuordnen, wodurch Animatoren passendere Referenzen erhalten könnten.

Dies soll die Arbeitsbelastung der Mitwirkenden an einem Anime deutlich reduzieren, weshalb sich Sony insgesamt sehr aufgeschlossen gegenüber künstlicher Intelligenz zeigte und sie als »Motor für positive Veränderungen« sowie »kreativen Partner« bezeichnete – überzeugt davon, dass KI die Menschen unterstützen wird.

Mehr zum Thema:

Beispiel-Kurzfilm:

Dieses externe Video stammt von YouTube.

Mehr Informationen

Via Sony Unternehmensbericht 2025
© Miki Yoshikawa, Kodansha / A Couple of Cuckoos Production Committee

Artikel teilen

Newsticker

Dieser Artikel beinhaltet Affiliate-Links. Durch den Kauf der Produkte über unsere Links erhalten wir eine kleine Provision. Mehr dazu.

Auch interessant?

Diskutiere mit!

guest
26 Kommentare
Bewertung
Neueste Älteste
Inline Feedbacks
View all comments
Robin

No KI!😕

Natsu90

Komplett gegen KI im Anime-Bereich zu sein, sollte man nicht, denn aufhalten kann man es sowieso nicht. Und noch etwas: Diejenigen, die immer auf diesem Trip sind – könnt ihr bei manchen Sachen im Animationsbereich wirklich den großen Unterschied erkennen? Als Unterstützungsmittel sehe ich das nicht immer… Ja, die Synchronisation ist auch immer ein besonders heikler Bereich, aber im Großen und Ganzen ist die Entwicklung in der Anime-Branche nicht aufzuhalten. Übrigens, wer diese Anti-KI-Haltung wirklich lebt, dürfte selbst keine Form von KI im Alltag oder bei der Arbeit nutzen. Ich benutze sie jedoch, deshalb kann ich mich schlecht daran halten, auf diesen Anti-KI-Zug aufzuspringen. 🤔🤷‍♀️

KnSNaru

Die Digitaltechnik schreitet ohne die KI überhaupt nicht mehr voran.

Selbst die Hardwareindustrie ist so dermaßen an ihr Limit geraten, gerade in Bezug auf ihre Lithographie, dass nebst einer stetigen Zunahme an Brechstangen und der Kaskadierung von immer mehreren Based-Clustern auch bisher ungeahnte Topologien in der Branch Predictoion herhalten müssen – neuere, verbesserte KI-Algorythmen.

Eine Grafikkarte, diese ohne eine einer zunehmenden Power Consumption mehr Leistungsfähigkeit versprecher, kann dies in nur noch durch die KI bewältigen, ergo Fake-Frames.

Nowa

Falsch. Auch in der Hardware gibt es viele neue Ansätze. Diese sind nur noch nicht in der Durchbruch-Phase.
Aber Lichtfluss statt Stromfluss, Graphen etc. werden die Hardware erneut revolutionieren. Da ist so viel vielversprechendes in der Pipeline, dass eines zünden wird.

KnSNaru

Wir können uns auch über Fusionsreaktoren unterhalten. Doch wir bleiben besser auf dem Boden der Tatsachen.

Quantencomputer sind nicht für den heimischen Einsatz konzipiert und werden es niemals sein, weil allein der Einsatz von Cubraten und Cubriten es immer noch nicht ermöglichen, oberhalb des Gefrierpunktes einen supraleitenden Zustand herzustellen.

Was bliebe demnach an reeller Technologie übrig? Du siest, zum Träumen ist kaum Platz gegeben.

Guts

KI sorgt dafür, dass die Menschheit weiter verblödet, für den einfachsten Unfug fragen die Leute mittlerweile eine KI und hinterfragen rein gar nichts mehr. Das wird uns noch böse auf die Füße fallen, sowohl wirtschaftlich als auch politisch, besonders wenn man sich anschaut von welcher politischen Ausrichtung KI hauptsächlich benutzt/missbraucht wird.

Natsu90

Das ist zu oberflächlich und zu simpel argumentiert. Ganz einfach ausgedrückt: Wer ist jetzt das »Böse« – die neue Technologie oder der Mensch, der sie wie in der Geschichte missbraucht? Wir könnten jetzt Beispiele aufzählen, wie KI in der breiten Öffentlichkeit missbraucht wird, aber das muss man den Leuten hier, glaube ich, nicht erzählen. Und diese alte Leier, dass die böse KI die Menschen verblödet, kommt doch wieder darauf an, wie jeder Einzelne neue Technologien nutzt.

Ich

Aber es ist doch darauf ausgelegt. Man stellt der KI eine Frage und bekommt ein Ergebnis geliefert – und das wird doch im Großteil der Fälle auch nicht hinterfragt, sondern einfach akzeptiert.

Es gibt doch kaum Leute, die das wirklich nachprüfen und abgleichen. Die nehmen das so wie es ist. Es geht dabei nicht darum, dass KI ‚böse‘ ist. Das ist die simple reale Anwendungsweise.

Jetzt kann man sagen, dass die Nutzer in der Verantwortung sind, es nachzuprüfen – das wird aber nicht gemacht weil es ja Aufwand bedeutet. Und den will man ja eben nicht – daher fragt man ja die KI; die soll das ja machen.

10Minutes

Frag mich wie Menschen zu einer Zeit ohne K.I. dann verblödet sind?
Nur vor dem Bildschirm sitzen sorgt für viereckige Augen.
Man verblödet wenn man nur vor dem Fernseher/Computer sitzt,
Smartphone Zombies können wir auch dazu zählen.

Recherche dürften damals einige, in der Schulzeit, auch nur Wikipedia genutzt haben, mit etwas Umformulierung, und mehr auch nicht.

»Och, ich weiß nicht wie ich was übersetzen soll« *nutzt Google Übersetzer in den frühen 2000er*

Und jetzt kommt das beste, das alles OHNE K.I.

Will ich K.I. in Anime sehen? Nein!
Gib ich der Technik die Schuld? Nein! Was kann die Technik dafür das die Missbraucht wird.
Und für missbräuche suche ich difinitiv nicht ein Sündenbock, so wie es viele andere machen, in vielen anderen Bereichen, wie z.B.

– Amoklauf = Ballerpiele
– Mann fällt über Frau her = Sie war »aufreizend« gekleidet.
– Jemand vergeht sich an einem Mädchen im Teenager Alter (in der Pubertät) = Anime mit L*li Inhalt/NSFW Games mit L*li.
– Leute verlieren ihren Arbeitsplatz = Ausschließlich K.I., andere Faktoren werden ignoriert.
Könnte mir noch etwas mehr Arbeit machen, aber neeee. 😛

*Wer meint hier wieder die P-Karte zücken zu wollen, tut euch einen Gefallen und informiert euch erstmal über die WIRKLICHE Bedeutung des Wortes/der Wörter.

Guts

Es gab in der Menschheitsgeschichte nichts vergleichbares, was den Menschen das Denken und die Meinungsbildung so sehr und vor allem einfach abgenommen hat wie KI. KIs bündeln zudem Informationen an einem zentralen Ort, das bedeutet, dieser eine Ort entscheidet auch die Ausrichtung der Informationen. Dort bestimmt also quasi eine einzige Person (der Besitzer), was die KI zu sagen und die Nutzer zu erfahren haben (fehlende Neutralität bei KIs wurde ja bereits schon bewiesen). Im Fernsehen und Internet ist das nicht so einfach weil dezentral, dort müsstest du unzählige Einzelpersonen bestechen, damit sie ihre Informationen und Ausrichtung angleichen.
Gleichzeitig hat man versäumt, diese Technik frühzeitig zu regulieren und so gut es geht vor Missbrauch zu schützen. Ganz im Gegenteil sogar, man sorgt eher dafür, dass diese Hauptsächlich zum Missbrauch verwendet wird (das haben sogar schon große KI-Entwickler zugegeben). Denn bis auf Bereiche wie z.B. Medizin oder Forschung, hat KI bisher eher negative Effekte und bis auf ein paar Spekulanten und Antidemokraten profitiert auch keiner wirklich (langfristig) davon. Und die Menschen, denen man mit KI theoretisch langfristig den (Arbeits)-Alltag erleichtern/verbessern könnte, sind sowieso nicht die relevante Zielgruppe von KI, das betrifft eigentlich den Großteil der Menschheit.
Es geht also nicht um die Schuldfrage, sondern darum, ob es diese Technik in der aktuellen Situation wirklich alles wert ist…

Mana

Das lange vorhandene Probem ist eben die fehlende Aufklärung und das von selbst die wenigsten solche Dinge machen und lernen -was natürlich schon auch mit gewisse Absicht-…schließlich ist eigendlich hinreichend bekannt dass es auch drauf ankommt mit was für Infos eben jene KIs etc. gefüttert wurden, und das man dazu schon bewusst einseitig manipulierte Plattformen lange nimmt ist wenn man etwas sich informiert ja auch nichts neues.

Und nur bei der Sache bleibt es wenns um manipulieren, Wahrheiten verdrehen usw ja auch nicht….dass man das Fach und die Vergangenheit mit als »Geschichte« bezeichnet -eben auch selbiges was man mit für erfundene andere Bücher/Filme etc ebenso verwendet- ist ja jetzt auch, wenn man etwas nachdenkt auch kein Zufall und sollte nahezu für jeden logisch erscheinen, dass daran was stinkt.
Ebenso wie die Tatsache…das ja egal um was für eine Sache es geht…«wenn man nicht selbst dabei war, kann einen immer sonstwas erzählt werden, deswegen muss das noch längst nicht alles so, oder überhaupt stimmen…« – danach kann man sonstwas behaupten bzw bewusst falsches festgehalten usw werden…Hinreichend bekannt dürfte ja auch die Aussage »Die Gewinner schreiben die Geschichte« sein.

Mary-Lou

Absolut richtig! Die Intelligenz der Menschen nimmt stetig ab 🙁 Die Technik wird besser, aber die Leute dümmer……. Ist ja auch clever gemacht: Erst hat man die Leute vom Smartphone abhängig gemacht und jetzt gibt es das tolle Smartphone mit der K.I, damit man gar nicht mehr denken muss 🙁 Also ich setzte da auf meine N.I. (Natürliche Intelligenz) 😉 Aber die hat anscheinend nicht jeder…..Es ist erschreckend, was junge Menschen, die KI teilweise fragen müssen 🙁 Die einfachsten Sachen, fallen denen nicht mehr selbst ein…….

»Arbeitsbelastung reduzieren« heißt doch im Klartext auch nur, weniger Arbeitsplätze 🙁 Ich lehne KI ab, wo es nur geht!

Ich

Ähm … Hä? Das klingt für mich völlig nutzlos.

Laut Sony soll dies helfen, Übersetzungsentscheidungen zu verbessern und »das Unbehagen von Spielern und Zuschauern audiovisueller Werke« zu reduzieren.

Welches ‚Unbehagen‘ denn? Wo sollte ich da Unbehangen verspühren? Und es soll ‚helfen, Übersetzungsentscheidungen zu verbessern‘? Also greift das in den Übersetzungsprozess ein nur damit irgendwelche Lippenbewegungen passen? Das scheint mir doch völlig unnötig zu sein.

Dies soll die Arbeitsbelastung der Mitwirkenden an einem Anime deutlich reduzieren

Wer wird da wie entlastet?

Wenn den Übersetzern da irgendeine KI dazwischenfunkt, scheint mir das für die eher störend zu sein und hält sie doch eher auf, wenn man dann wieder Sätze umstellen muss; das klingt eher nach Mehraufwand für mich.

Oder geht es um die Leute im Studio? Da passt man doch nicht die Lippenbewegungen für allerlei Sprachen neu an. Oder doch? Das wäre mir neu. Und ist doch auch gar nicht nötig.

Ich verstehe nicht, was das nun soll … Also ich verstehe die Erklärung hier, ja. Aber der Zweck/Nutzen erschließt sich mir nicht.

Natsu90

Kostenreduzierung ganz einfach erklärt!

KnSNaru

Als ehemaliger Translator und ehemaliger Editor für Anime-Fansubs widerspreche ich Dir in Deinem Vorurteil, das einzig und allein in dem Bashing auf das AI abzielt.

Ein Editor ist um ein Viellfaches entlastet, wenn für ihn ein Typesetter und ein Translator die Vorarbeitet geleistet haben.

Ich

das einzig und allein in dem Bashing auf das AI abzielt.

Ich weiß zwar nicht was ‚Bashing‘ bedeuten soll, aber ich stelle einfach nur Fragen.

Man stellt hier eine Erklärung vor, aber die sorgt bei mir für mehr Fragen als wirkliche Aufklärung.

Ein Editor ist um ein Viellfaches entlastet, wenn für ihn ein Typesetter und ein Translator die Vorarbeitet geleistet haben.

Aber hier geht es doch darum, dass Lippenbewegungen mit den ausgesprochenen Worten (möglichst) übereinstimmen sollen. Und dafür soll die KI analysieren und im Prinzip Vorschläge machen. Wenn dann aber nun ein Übersetzer respektive eine Übersetzerin da eh schon dransitzt und daran arbeitet … und dann kommt dann das nun man soll das umstellen – nur damit es etwas besser zu irgendwelchen Lippenbewegungen passt? Wozu?

Es ist ja nicht so, dass die Lippensynchros so grottig sind wie bei alten Godzilla Fimen, wo entweder die Schauspieler nicht mehr reden, aber der gesprochene Satz weiter ertönt oder der gesprochene Satz zu Ende ist, aber die Lippenbewegungen noch weitergehen (ich fand das ja immer ganz drollig, hahaha!).

Ich kann einfach nicht nachvollziehen, wem das jetzt helfen soll. Und auf welcher Ebene.

KnSNaru

… und dann kommt dann das nun man soll das umstellen – nur damit es etwas besser zu irgendwelchen Lippenbewegungen passt? Wozu?

In manchen Situationen passen Lippenbewegung und Ausgesprochenes nicht zueinander, entweder in der Zeitintervalle oder in der Tonart, weil ursprünglich ein anerer Ausgangstext vorgesehen war.

Gerade bei den GerDubs nimmt das eine sehr häufige Gewichtung ein und da der gesprochene Text sowieso meistens frei erfunden ist, abweicht von dem Untertitel, ist es egal, was die KI als Ergebnis ausspucke, solange es sinngemäß ist.

Primordus

Ich bleib dabei letztendlich heißt es es soll entlasten aber es wird immer eher zu Entlassungen kommen Filme wie Terminator und I robot haben es gezeigt und die Menschheit endet irgendwann wie bei Wall-E ich Bleibe dabei und bin gegen KI, auch wenn es nicht mehr aufzuhalten ist, denn die Dummheit der Menschheit wird immer solange sie existiert bestehen.

Mary-Lou

So ist es. Jeder hat ein Gehirn, aber leider fällt es vielen schwer, es zu benutzen 😉 Ich verstehe die Leute da ehrlich gesagt auch nicht, weshalb es alles mitmachen mit der K.I. und sich nicht wehren….. Da wird so lange in die Hände geklatscht, bis die K.I. dann den eigenen Arbeitsplatz ersetzt…….

Ich werde auch K.I. meiden, wo es nur geht. Ich setze lieber auf die N.I. (Natürliche Intelligenz) 🙂

Kruemel

Jajaja, KI soll ja immer nur unterstützend wirken. Immer dasselbe Gesabbel für »Wir wollen Gelder einsparen und Mitarbeiter abbauen« – ich kann es nicht mehr hören/lesen

Ich kenne viele Menschen persönlich, die jahrelang als Übersetzer gearbeitet haben, und jetzt auf Arbeitssuche sind, weil die in der Firma genutzte KI, deren Arbeit »unterstützt« hat

Das verlinkte Video fand ich jetzt nicht sonderlich hilfreich für die Thematik. Denn es hat mir eher gezeigt, dass sich die genutzte Technik negativ auswirkt.

Guts

Das oben verlinkte Beispielvideo hat voll die schlechte Lippensynchronität. Da entwickeln die also schon so lang dran und dann kommt da nur so etwas bei rum…

Ecchi-Senpai

Ich finde die Idee gut, solange die Technik als Unterstützung und nicht als günstiger Ersatz für echte Arbeitsplätze eingesetzt wird. Nvidia hat eine ähnliche Technik ja auch bereits für Videospiele angekündigt. Gerade was Synchronisation in andere Sprachen angeht, könnte diese Technik einen positiven Einfluss auf die Arbeitsabläufe und die Qualität haben. Besonders in Rollenspielen mit vielen Dialogen, hat man auch heute noch oft das Problem, dass die deutsche Sprache nicht zu den Lippenbewegungen passt.

KnSNaru

Sony bringt Kakkou no Iinazuke-Lippensynchronisation in die Anime-Produktion

Unterstütze ich voll! 👍

Noodle

Verstehe ich das richtig:

Wenn die Person in der Szene im japanischen »Baka!« sagt, und dann der deutsche Text mit »Idiot!« übersetzt wird, dann benutzt das Programm automatisch Mundstellungen, die den deutschen Lauten entsprechen in der Synkronisation?

Es klingt erstmal sehr entlastend für Synkronstudios, wenn die nicht mehr durch fixe »Münder« in der Wahl ihrer Übersetzung begrenzt wären.
Das muss eine ziemliche Arbeit sein, Übersetzungen zu wählen die auch zu japanischen Mündern passen.

Und so lange die Freiheit der Übersetzungen nicht dadurch zerstört wird, weil das Programm Übersetzung und Mundwahl zwingend vorgibt,klingt es eher positiv.

Denn viele Synkronisationen erhalten ihren Zauber doch erst durch die kreative Arbeit der Übersetzer, die kulturelle Eigenheiten stimmig in die Texte einfließen lassen, sowie diePerformance der Künstler, die ihr Herzblut da rein stecken.

Aber es bleibt die allgegenwärtige Gefahr, dass aus der »Entlastung« durch die KI nach und nach eine »Entlassung« wegen KI folgt, weil die KI den Job zwar wahrnehmbar schlechter macht, aber dafür weniger kostet.

Guts

Kann aber zu sehr merkwürdigen Ergebnissen führen, wenn man einfach die Lippenbewegungen ändert, denn die Lippenbewegungen und die Gestik müssen harmonieren, dass wird im Animationsprozess immer mit beachtet. Gab da schon Versuche bei realen Filmaufnahmen, dort hat man die Lippen an die jeweiligen Sprachen angepasst, sah richtig komisch aus, weil der Kopf sich genauso bewegt hat wie vorher aber das Gesagte und die Lippenbewegungen anders waren. Bei Anime ist das dann auch nicht zu gebrauchen, wenn die Figur den Kopf beim Sprechen bewegt.

Und die deutschen Synchros bekommen das mit der Lippensynchronität schon seit vielen vielen Jahrzehnten problemlos hin, sogar besser als die Japaner, dafür braucht es also keine KI.

Noodle

Danke für die Erläuterung. Das mit der Gestik ist ein wichtiger Faktor, daran habe ich zunächst nicht gedacht. Und ja die deutschen Dialogschreiber und Sprecher kriegen es sehr gut hin.