Telekommunikation mit fotorealistischen Avataren in virtueller oder erweiterter Realität ist ein vielversprechender Weg, um eine authentische Face-to-Face-Kommunikation in 3D über weite Entfernungen zu erreichen. In dieser Arbeit stellen wir den Pixel Codec Avatars (PiCA) vor: ein tiefes generatives Modell menschlicher 3D-Gesichter, das die modernste Rekonstruktionsleistung erreicht und gleichzeitig rechnerisch effizient ist und sich an die Rendering-Bedingungen während der Ausführung anpasst. Unser Modell kombiniert zwei Kernideen: (1) eine vollständig faltungsbasierte Architektur zur Dekodierung räumlich variierender Merkmale und (2) einen an das Rendering angepassten Dekodierer pro Pixel. Beide Techniken werden über eine dichte Oberflächendarstellung integriert, die auf eine schwach überwachte Weise aus der Verfolgung von Maschen mit geringer Topologie über Trainingsbilder gelernt wird. Wir zeigen, dass PiCA die Rekonstruktion im Vergleich zu bestehenden Techniken bei Testausdrücken und Ansichten von Personen unterschiedlichen Geschlechts und Hauttons verbessert. Vor allem zeigen wir, dass das PiCA-Modell viel kleiner ist als das State-of-the-Art-Basismodell und die Telekommunikation mit mehreren Personen ermöglicht: Auf einem einzigen mobilen VR-Headset Oculus Quest 2 werden 5 Avatare in Echtzeit in derselben Szene gerendert.
Quelle: Pixel Codec Avatars
Weitere Informationen:
Pixel Codec Avatars: One Step Closer To The Singularity?
PiCA Avatars From Meta — A Glimpse Into The Future of Communication!