Audiogesteuerte Kopf-Avatare für Forschung, Medien und Medizin

Max-Planck-Institut für Informatik

Veröffentlicht 12.12.2025 10:20, Kai Wehrs

Sprach-zu-Mimik: Steuerung digitaler Kopf-Avatare über Audiosignale. Forscher am Max-Planck-Institut für Informatik entwickeln Techniken zur Erstellung fotorealistischer, dreidimensionaler Ganzkörper- und Kopf-Avatare. Realistische digitale Avatare gewinnen zunehmend an Bedeutung, beispielsweise in Anwendungen der virtuellen und erweiterten Realität, Videokonferenzen, Filmen und Computerspielen oder in der Medizin.

Forscher des Max-Planck-Instituts (MPI) für Informatik in Saarbrücken stellen nun zwei neuartige Methoden auf zwei der weltweit führenden Konferenzen für Computergrafik vor: SIGGRAPH und SIGGRAPH Asia. Diese Methoden ermöglichen die Generierung fotorealistischer Ganzkörper-Avatare und erlauben die Steuerung des Kopfes allein über Audiospuren.

Bild: Marc Habermann, Kartik Teotia und Christian Theobalt (von links nach rechts). Foto: MPI-INF/Philipp Zapf-Schramm

Bisherige Methoden zur Erstellung digitaler Avatare wiesen erhebliche Einschränkungen auf: Gesicht und Körper ließen sich oft nicht unabhängig voneinander steuern, Kleidung wirkte mitunter unnatürlich, die Darstellungen waren häufig nur aus bestimmten Perspektiven überzeugend, und Gesichtsanimationen erschienen oft steril und leblos. Mit ihren Arbeiten „EVA: Expressive Virtual Avatars from Multi-view Videos“ und „Audio-Driven Universal Gaussian Head Avatars“ gehen die Forscher des Max-Planck-Instituts einen Schritt in Richtung der Lösung dieser Probleme.

Die im Dezember auf der SIGGRAPH Asia in Hongkong vorgestellte Arbeit „Audio-Driven Universal Gaussian Head Avatars“ beschreibt eine Methode zur automatischen Animation und Steuerung fotorealistischer 3D-Kopf-Avatare allein durch Sprachaufnahmen. Grundlage hierfür ist das neu entwickelte Universal Head Avatar Prior (UHAP), ein Modell, das anhand zahlreicher Videoaufnahmen realer Personen aus einem öffentlich zugänglichen Datensatz vortrainiert wurde. Es kann klar zwischen Identität (dem Aussehen einer bestimmten Person) und Ausdruck (Gesichtsausdrücken und Bewegungen) unterscheiden.

Bild: Marc Habermann, Kartik Teotia und Christian Theobalt (von links nach rechts). Foto: MPI-INF/Philipp Zapf-Schramm

Ein Audio-Encoder übersetzt Audiosignale direkt in die Gesichtsausdrücke des digitalen Avatar-Modells. Anders als bisherige Ansätze berücksichtigt er nicht nur Lippen- und Kieferbewegungen, sondern auch feine, audioabhängige Veränderungen wie Bewegungen im Mund oder subtile Gesichtsausdrücke. Mithilfe dieses vortrainierten Modells lassen sich hochrealistische 3D-Gesichtsdarstellungen mit deutlich weniger Daten generieren. „Unser Ziel ist es, digitale Köpfe zu entwickeln, die nicht nur mit der Sprache synchronisiert sind, sondern sich auch lebensecht verhalten und subtile Details wie Augenbrauenbewegungen und Blickwechsel beinhalten“, erklärt Kartik Teotia, Doktorand an der Universität des Saarlandes und Forscher am Max-Planck-Institut für Informatik.

Neben Gesichtern befasst sich die Forschung am Max-Planck-Institut für Informatik auch mit Methoden zur Generierung von Ganzkörper-Avataren. Die im August auf der SIGGRAPH-Konferenz in Vancouver veröffentlichte Arbeit „EVA: Expressive Virtual Avatars from Multi-view Videos“ beschreibt einen neuartigen Ansatz, bei dem die Modellierung von Bewegung und Aussehen getrennt erfolgt. Ein flexibles digitales Modell erfasst zunächst Körper, Hände und Gesicht sowie deren Bewegungen und Mimik. Eine zweite Ebene fügt dann das äußere Erscheinungsbild hinzu, also Haut, Haare und Kleidung. „Mit EVA können wir Bewegungen und Gesichtsausdrücke unabhängig voneinander realistisch generieren und sie zudem aus neuen Blickwinkeln darstellen, die in den Originalaufnahmen nicht enthalten waren“, erklärt Marc Habermann, Leiter der Forschungsgruppe „Grafik und Vision für digitale Menschen“ am Max-Planck-Institut für Informatik. Aktuell muss das System noch mit Aufnahmen aus einer Laboreinrichtung des Instituts trainiert werden, in der eine Person gleichzeitig aus über hundert Kameraperspektiven gefilmt wird.

„Mit diesen beiden Arbeiten treiben wir die Forschung an realistischen digitalen Avataren entscheidend voran. Solche Modelle könnten die Art und Weise, wie wir in Zukunft kommunizieren, zusammenarbeiten oder neue Fähigkeiten erwerben – beispielsweise durch virtuelle Tutoren – grundlegend verändern und damit weit über die Informatik hinausreichen“, sagt Professor Christian Theobalt, Direktor am Max-Planck-Institut für Informatik und Leiter der Abteilung Visuelles Rechnen und Künstliche Intelligenz, wo diese Projekte entwickelt werden. Theobalt ist zudem Gründungsdirektor des Saarbrückener Forschungszentrums für Visuelles Rechnen, Interaktion und Künstliche Intelligenz (VIA), einer strategischen Forschungspartnerschaft mit Google.

Beide oben genannten Arbeiten haben bereits das Interesse der Branche geweckt. „EVA: Expressive Virtual Avatars from Multi-view Videos“ wurde in Zusammenarbeit mit Google am Saarbrücken VIA Center entwickelt. „Audio-Driven Universal Gaussian Head Avatars“ entstand in wissenschaftlicher Kooperation mit Flawless AI, einem Londoner Filmtechnologieunternehmen, das kürzlich vom TIME Magazine zu einem der 100 einflussreichsten Unternehmen des Jahres 2025 gekürt wurde. Die Visual-Dubbing-Technologie von Flawless AI, die auf der Grundlagenforschung von Theobalts Abteilung basiert, ermöglicht die präzise Anpassung der Lippenbewegungen von Schauspielern an neue Sprachen – ein Durchbruch, der in Hollywood zunehmend Beachtung findet. Im Mai 2025 kam mit „Watch the Skies“ der erste abendfüllende Spielfilm, der mit Visual Dubbing überarbeitet wurde, in die US-Kinos.

Originalveröffentlichung:
Kartik Teotia, Helge Rhodin, Mohit Mendiratta, Hyeongwoo Kim, Marc Habermann und Christian Theobalt. 2025. Audio-Driven Universal Gaussian Head Avatars. In: SIGGRAPH Asia 2025 Conference Papers, 15.–18. Dezember 2025, Hongkong. ACM, New York, NY, USA, 16 Seiten. https://doi.org/10.48550/arXiv.2509.18924

Hendrik Junkawitsch, Guoxing Sun, Heming Zhu, Christian Theobalt und Marc Habermann. 2025. EVA : Expressive Virtual Avatars from Multi-view Videos. In : Special Interest Group on Computer Graphics and Interactive Techniques Conference Papers (SIGGRAPH Conference Papers '25), 10. – 14. August 2025, Vancouver, BC, Kanada. ACM, New York, NY, USA, 20 Seiten. https://doi.org/10.1145/3721238.3730677

Weitere Informationen:
– Website der Abteilung Visuelles Rechnen und Künstliche Intelligenz:  https://www.mpi-inf.mpg.de/de/departme ... d-artificial-intelligence
– Website der Gruppe Grafik und Vision für digitale Menschen:  https://gvdh.mpi-inf.mpg.de/
– Forschungszentrum für Visuelles Rechnen, Interaktion und Künstliche Intelligenz Saarbrücken:  https://www.via-center.science/

Quelle: © Max-Planck-Gesellschaft, Max-Planck-Institut für Informatik

Bildmaterial: MPI-INF/Philipp Zapf-Schramm