Der Multimediakonzern Sony hat vor Kurzem angekündigt, künftig ein automatisches System zur Lippensynchronisation in der Anime-Produktion einzusetzen, um diese effizienter zu gestalten. Wir fassen zusammen.
Technologie seit 2021 in Entwicklung
Dem Unternehmensbericht 2025 zufolge entwickelt Sony diese Technologie bereits seit 2021 und hat sie mittlerweile in vier Anime-Titeln verwendet. Das aktuellste Beispiel ist der fünfeinhalbminütige Kurzfilm »Utano ☆ Princesama TABOO NIGHT XXXX«, der im Mai 2025 veröffentlicht wurde.
Bereits im Frühjahr 2025 wurde ein Patent publik, das vermutlich in Zusammenhang mit dieser Engine steht. Die im August 2023 eingereichte und derzeit in Japan geprüfte Anmeldung mit der Nummer 2025-046683 beschreibt ein System, das sowohl eine Originaldatei (Audio oder Text) als auch deren Übersetzung nutzt und die darin enthaltenen Phoneme in passende Lippenbewegungen umwandelt.
Ein Phonem ist der kleinste bedeutungsunterscheidende Laut einer Sprache. Die Technologie erzeugt Lippenbewegungen basierend auf diesen Lauten, analysiert anschließend deren Dauer und berechnet einen Ähnlichkeitswert, der zeigt, wie gut die neuen Mundformen mit denen der Originaldatei übereinstimmen.
Laut Sony soll dies helfen, Übersetzungsentscheidungen zu verbessern und »das Unbehagen von Spielern und Zuschauern audiovisueller Werke« zu reduzieren. Bei Anime ließen sich so unterschiedliche Laute bestimmten Lippenbewegungen zuordnen, wodurch Animatoren passendere Referenzen erhalten könnten.
Dies soll die Arbeitsbelastung der Mitwirkenden an einem Anime deutlich reduzieren, weshalb sich Sony insgesamt sehr aufgeschlossen gegenüber künstlicher Intelligenz zeigte und sie als »Motor für positive Veränderungen« sowie »kreativen Partner« bezeichnete – überzeugt davon, dass KI die Menschen unterstützen wird.
- Macher des »Sekiro«-Anime geben Statement zum KI-Einsatz ab
- Sony testet neue KI-Tools bei A-1 Pictures und CloverWorks
- Crunchyroll verwirft Pläne zum Einsatz von künstlicher Intelligenz
Beispiel-Kurzfilm:
Dieses externe Video stammt von YouTube.
Via Sony Unternehmensbericht 2025
© Miki Yoshikawa, Kodansha / A Couple of Cuckoos Production Committee
No KI!😕
Komplett gegen KI im Anime-Bereich zu sein, sollte man nicht, denn aufhalten kann man es sowieso nicht. Und noch etwas: Diejenigen, die immer auf diesem Trip sind – könnt ihr bei manchen Sachen im Animationsbereich wirklich den großen Unterschied erkennen? Als Unterstützungsmittel sehe ich das nicht immer… Ja, die Synchronisation ist auch immer ein besonders heikler Bereich, aber im Großen und Ganzen ist die Entwicklung in der Anime-Branche nicht aufzuhalten. Übrigens, wer diese Anti-KI-Haltung wirklich lebt, dürfte selbst keine Form von KI im Alltag oder bei der Arbeit nutzen. Ich benutze sie jedoch, deshalb kann ich mich schlecht daran halten, auf diesen Anti-KI-Zug aufzuspringen. 🤔🤷♀️
Die Digitaltechnik schreitet ohne die KI überhaupt nicht mehr voran.
Selbst die Hardwareindustrie ist so dermaßen an ihr Limit geraten, gerade in Bezug auf ihre Lithographie, dass nebst einer stetigen Zunahme an Brechstangen und der Kaskadierung von immer mehreren Based-Clustern auch bisher ungeahnte Topologien in der Branch Predictoion herhalten müssen – neuere, verbesserte KI-Algorythmen.
Eine Grafikkarte, diese ohne eine einer zunehmenden Power Consumption mehr Leistungsfähigkeit versprecher, kann dies in nur noch durch die KI bewältigen, ergo Fake-Frames.
Falsch. Auch in der Hardware gibt es viele neue Ansätze. Diese sind nur noch nicht in der Durchbruch-Phase.
Aber Lichtfluss statt Stromfluss, Graphen etc. werden die Hardware erneut revolutionieren. Da ist so viel vielversprechendes in der Pipeline, dass eines zünden wird.
KI sorgt dafür, dass die Menschheit weiter verblödet, für den einfachsten Unfug fragen die Leute mittlerweile eine KI und hinterfragen rein gar nichts mehr. Das wird uns noch böse auf die Füße fallen, sowohl wirtschaftlich als auch politisch, besonders wenn man sich anschaut von welcher politischen Ausrichtung KI hauptsächlich benutzt/missbraucht wird.
Das ist zu oberflächlich und zu simpel argumentiert. Ganz einfach ausgedrückt: Wer ist jetzt das »Böse« – die neue Technologie oder der Mensch, der sie wie in der Geschichte missbraucht? Wir könnten jetzt Beispiele aufzählen, wie KI in der breiten Öffentlichkeit missbraucht wird, aber das muss man den Leuten hier, glaube ich, nicht erzählen. Und diese alte Leier, dass die böse KI die Menschen verblödet, kommt doch wieder darauf an, wie jeder Einzelne neue Technologien nutzt.
Aber es ist doch darauf ausgelegt. Man stellt der KI eine Frage und bekommt ein Ergebnis geliefert – und das wird doch im Großteil der Fälle auch nicht hinterfragt, sondern einfach akzeptiert.
Es gibt doch kaum Leute, die das wirklich nachprüfen und abgleichen. Die nehmen das so wie es ist. Es geht dabei nicht darum, dass KI ‚böse‘ ist. Das ist die simple reale Anwendungsweise.
Jetzt kann man sagen, dass die Nutzer in der Verantwortung sind, es nachzuprüfen – das wird aber nicht gemacht weil es ja Aufwand bedeutet. Und den will man ja eben nicht – daher fragt man ja die KI; die soll das ja machen.
Frag mich wie Menschen zu einer Zeit ohne K.I. dann verblödet sind?
Nur vor dem Bildschirm sitzen sorgt für viereckige Augen.
Man verblödet wenn man nur vor dem Fernseher/Computer sitzt,
Smartphone Zombies können wir auch dazu zählen.
Recherche dürften damals einige, in der Schulzeit, auch nur Wikipedia genutzt haben, mit etwas Umformulierung, und mehr auch nicht.
»Och, ich weiß nicht wie ich was übersetzen soll« *nutzt Google Übersetzer in den frühen 2000er*
Und jetzt kommt das beste, das alles OHNE K.I.
Will ich K.I. in Anime sehen? Nein!
Gib ich der Technik die Schuld? Nein! Was kann die Technik dafür das die Missbraucht wird.
Und für missbräuche suche ich difinitiv nicht ein Sündenbock, so wie es viele andere machen, in vielen anderen Bereichen, wie z.B.
– Amoklauf = Ballerpiele
– Mann fällt über Frau her = Sie war »aufreizend« gekleidet.
– Jemand vergeht sich an einem Mädchen im Teenager Alter (in der Pubertät) = Anime mit L*li Inhalt/NSFW Games mit L*li.
– Leute verlieren ihren Arbeitsplatz = Ausschließlich K.I., andere Faktoren werden ignoriert.
Könnte mir noch etwas mehr Arbeit machen, aber neeee. 😛
*Wer meint hier wieder die P-Karte zücken zu wollen, tut euch einen Gefallen und informiert euch erstmal über die WIRKLICHE Bedeutung des Wortes/der Wörter.
Das lange vorhandene Probem ist eben die fehlende Aufklärung und das von selbst die wenigsten solche Dinge machen und lernen -was natürlich schon auch mit gewisse Absicht-…schließlich ist eigendlich hinreichend bekannt dass es auch drauf ankommt mit was für Infos eben jene KIs etc. gefüttert wurden, und das man dazu schon bewusst einseitig manipulierte Plattformen lange nimmt ist wenn man etwas sich informiert ja auch nichts neues.
Und nur bei der Sache bleibt es wenns um manipulieren, Wahrheiten verdrehen usw ja auch nicht….dass man das Fach und die Vergangenheit mit als »Geschichte« bezeichnet -eben auch selbiges was man mit für erfundene andere Bücher/Filme etc ebenso verwendet- ist ja jetzt auch, wenn man etwas nachdenkt auch kein Zufall und sollte nahezu für jeden logisch erscheinen, dass daran was stinkt.
Ebenso wie die Tatsache…das ja egal um was für eine Sache es geht…«wenn man nicht selbst dabei war, kann einen immer sonstwas erzählt werden, deswegen muss das noch längst nicht alles so, oder überhaupt stimmen…« – danach kann man sonstwas behaupten bzw bewusst falsches festgehalten usw werden…Hinreichend bekannt dürfte ja auch die Aussage »Die Gewinner schreiben die Geschichte« sein.
Ähm … Hä? Das klingt für mich völlig nutzlos.
Welches ‚Unbehagen‘ denn? Wo sollte ich da Unbehangen verspühren? Und es soll ‚helfen, Übersetzungsentscheidungen zu verbessern‘? Also greift das in den Übersetzungsprozess ein nur damit irgendwelche Lippenbewegungen passen? Das scheint mir doch völlig unnötig zu sein.
Wer wird da wie entlastet?
Wenn den Übersetzern da irgendeine KI dazwischenfunkt, scheint mir das für die eher störend zu sein und hält sie doch eher auf, wenn man dann wieder Sätze umstellen muss; das klingt eher nach Mehraufwand für mich.
Oder geht es um die Leute im Studio? Da passt man doch nicht die Lippenbewegungen für allerlei Sprachen neu an. Oder doch? Das wäre mir neu. Und ist doch auch gar nicht nötig.
Ich verstehe nicht, was das nun soll … Also ich verstehe die Erklärung hier, ja. Aber der Zweck/Nutzen erschließt sich mir nicht.
Kostenreduzierung ganz einfach erklärt!
Als ehemaliger Translator und ehemaliger Editor für Anime-Fansubs widerspreche ich Dir in Deinem Vorurteil, das einzig und allein in dem Bashing auf das AI abzielt.
Ein Editor ist um ein Viellfaches entlastet, wenn für ihn ein Typesetter und ein Translator die Vorarbeitet geleistet haben.
Ich weiß zwar nicht was ‚Bashing‘ bedeuten soll, aber ich stelle einfach nur Fragen.
Man stellt hier eine Erklärung vor, aber die sorgt bei mir für mehr Fragen als wirkliche Aufklärung.
Aber hier geht es doch darum, dass Lippenbewegungen mit den ausgesprochenen Worten (möglichst) übereinstimmen sollen. Und dafür soll die KI analysieren und im Prinzip Vorschläge machen. Wenn dann aber nun ein Übersetzer respektive eine Übersetzerin da eh schon dransitzt und daran arbeitet … und dann kommt dann das nun man soll das umstellen – nur damit es etwas besser zu irgendwelchen Lippenbewegungen passt? Wozu?
Es ist ja nicht so, dass die Lippensynchros so grottig sind wie bei alten Godzilla Fimen, wo entweder die Schauspieler nicht mehr reden, aber der gesprochene Satz weiter ertönt oder der gesprochene Satz zu Ende ist, aber die Lippenbewegungen noch weitergehen (ich fand das ja immer ganz drollig, hahaha!).
Ich kann einfach nicht nachvollziehen, wem das jetzt helfen soll. Und auf welcher Ebene.
… und dann kommt dann das nun man soll das umstellen – nur damit es etwas besser zu irgendwelchen Lippenbewegungen passt? Wozu?
In manchen Situationen passen Lippenbewegung und Ausgesprochenes nicht zueinander, entweder in der Zeitintervalle oder in der Tonart, weil ursprünglich ein anerer Ausgangstext vorgesehen war.
Gerade bei den GerDubs nimmt das eine sehr häufige Gewichtung ein und da der gesprochene Text sowieso meistens frei erfunden ist, abweicht von dem Untertitel, ist es egal, was die KI als Ergebnis ausspucke, solange es sinngemäß ist.
Ich bleib dabei letztendlich heißt es es soll entlasten aber es wird immer eher zu Entlassungen kommen Filme wie Terminator und I robot haben es gezeigt und die Menschheit endet irgendwann wie bei Wall-E ich Bleibe dabei und bin gegen KI, auch wenn es nicht mehr aufzuhalten ist, denn die Dummheit der Menschheit wird immer solange sie existiert bestehen.
Das oben verlinkte Beispielvideo hat voll die schlechte Lippensynchronität. Da entwickeln die also schon so lang dran und dann kommt da nur so etwas bei rum…
Jajaja, KI soll ja immer nur unterstützend wirken. Immer dasselbe Gesabbel für »Wir wollen Gelder einsparen und Mitarbeiter abbauen« – ich kann es nicht mehr hören/lesen
Ich kenne viele Menschen persönlich, die jahrelang als Übersetzer gearbeitet haben, und jetzt auf Arbeitssuche sind, weil die in der Firma genutzte KI, deren Arbeit »unterstützt« hat
Das verlinkte Video fand ich jetzt nicht sonderlich hilfreich für die Thematik. Denn es hat mir eher gezeigt, dass sich die genutzte Technik negativ auswirkt.
Sony bringt Kakkou no Iinazuke-Lippensynchronisation in die Anime-Produktion
Unterstütze ich voll! 👍
Verstehe ich das richtig:
Wenn die Person in der Szene im japanischen »Baka!« sagt, und dann der deutsche Text mit »Idiot!« übersetzt wird, dann benutzt das Programm automatisch Mundstellungen, die den deutschen Lauten entsprechen in der Synkronisation?
Es klingt erstmal sehr entlastend für Synkronstudios, wenn die nicht mehr durch fixe »Münder« in der Wahl ihrer Übersetzung begrenzt wären.
Das muss eine ziemliche Arbeit sein, Übersetzungen zu wählen die auch zu japanischen Mündern passen.
Und so lange die Freiheit der Übersetzungen nicht dadurch zerstört wird, weil das Programm Übersetzung und Mundwahl zwingend vorgibt,klingt es eher positiv.
Denn viele Synkronisationen erhalten ihren Zauber doch erst durch die kreative Arbeit der Übersetzer, die kulturelle Eigenheiten stimmig in die Texte einfließen lassen, sowie diePerformance der Künstler, die ihr Herzblut da rein stecken.
Aber es bleibt die allgegenwärtige Gefahr, dass aus der »Entlastung« durch die KI nach und nach eine »Entlassung« wegen KI folgt, weil die KI den Job zwar wahrnehmbar schlechter macht, aber dafür weniger kostet.
Kann aber zu sehr merkwürdigen Ergebnissen führen, wenn man einfach die Lippenbewegungen ändert, denn die Lippenbewegungen und die Gestik müssen harmonieren, dass wird im Animationsprozess immer mit beachtet. Gab da schon Versuche bei realen Filmaufnahmen, dort hat man die Lippen an die jeweiligen Sprachen angepasst, sah richtig komisch aus, weil der Kopf sich genauso bewegt hat wie vorher aber das Gesagte und die Lippenbewegungen anders waren. Bei Anime ist das dann auch nicht zu gebrauchen, wenn die Figur den Kopf beim Sprechen bewegt.
Und die deutschen Synchros bekommen das mit der Lippensynchronität schon seit vielen vielen Jahrzehnten problemlos hin, sogar besser als die Japaner, dafür braucht es also keine KI.