Der Trick: Die Forscher bedienen sich einer Datenbank mit über 7000 sogenannten Talking Heads, also menschlichen Köpfen, die in kurzen Videos sprechen und entsprechende Bewegungsabfolgen durchführen. Ihr Algorithmus erfasst dabei «Landmarks», wie sie in einem typischen Gesicht zu erwarten sind: Wangenknochen, Nase, Mund, Augen und Augenbrauen. Anhand dieser Merkmale aus dem Vorlagenbild (Monroe, Dostojewski etc.) sucht die Software unter den 7000 Köpfen diejenigen mit ähnlichen «Landmarks» heraus. Aufgrund dieser Informationen extrapoliert sie, wie eine Bewegung der Schauspielerin oder des russischen Schriftstellers – der vor der Erfindung der Filmkamera starb – aussehen könnte.

Weltberühmte Gemälde werden auf einmal beweglich

Natürlich ist das eine stark vereinfachte Darstellung dessen, was das Forschergespann Egor Zakharov, Aliaksandra Shysheya, Egor Burkov und Victor Lempitsky in seinem 19-seitigen Aufsatz mit dem Titel «Few-Shot Adversarial Learning of Realistic Neural Talking Head Models» ausführt. Und selbstverständlich ist das, was mit nur einem einzigen Bild als Vorlage animiert werden kann, für das menschliche Auge schnell als Fake entlarvt. Trotzdem ist es faszinierend, wenn man alte Fotografien oder weltberühmte Gemälde auf einmal in Bewegung gesetzt wahrnimmt.

Und das Ergebnis wird stark verfeinert, wenn die Software mehr Input erhält: Gibt es statt nur eines 8 oder gar 32 Bilder eines Kopfes, wird die simulierte Darstellung der Bewegung exponentiell realistischer, wie die Wissenschaftler aufzeigen.

Es ist nur eine Frage der Zeit, bis das Ergebnis realistisch aussieht

Anwendungsbereiche für ihre Ergebnisse sehen die Forscher unter anderem bei Avataren beispielsweise für Videokonferenzen oder Computerspiele, aber auch im Special-Effects-Bereich. Dabei macht ihnen noch das zu schaffen, was «Uncanny Valley Effect» oder «Akzeptanzlücke» genannt wird: Die menschliche Wahrnehmung ist sehr sensibel, wenn es um kleine Fehler in der Darstellung von beispielsweise Gesichtern geht. Auch kleinste Unstimmigkeiten werden wahrgenommen. Doch wohl auch hier ist es nur eine Frage der Zeit, bis die nötige Feinjustierung (und die Rechenleistung) ausreichend fortgeschritten ist, um diese neue Form von Deepfakes immer realistischer erscheinen zu lassen.