Es ist nun möglich, mit Hilfe neuronaler Netze und einer kostengünstigen Webcam ein 3D-Bewegungsmodell einer Person in Echtzeit zu erstellen. Dieses System eröffnet neue Möglichkeiten für Motion Capturing und ist eine vielversprechende Alternative zu teuren Kamerasystemen.
Motion Capturing ? die Erfassung von menschlichen Bewegungen & Haltungen um diese auf Figuren im Rechner zu übertragen ? ist spätestens seit der aktuellen Virtual-Reality-Welle ein heißes Thema, denn für die Interaktion mit der simulierten Welt ist es entscheidend, dass diese ebendies weiß, ebenso wie sich der Besucher aus der materiellen Sphäre gerade verhält. Meist kommt zu diesem Zweck spezielle Hardware zum Einsatz etwa Tiefenkameras wie die Kinect von Microsoft. Oder die Bewegung wird optisch über Marker erfasst die man sich auf den Körper kleben muss.
Viel simpler soll es mit einem System namens VNect gehen, das eine Forschungsgruppe vom Max-Planck-Institut für Informatik an der Universität des Saarlandes entwickelt hat: Ihm reicht eine übliche, billige Webcam die eine Person mit 30 Bildern pro Sekunde aus einer einzigen Perspektive aufnimmt um in Echtzeit deren Bewegungen zu erkennen und mittels eines Avatars zu reproduzieren. Im Video gelingt das ebenfalls bei flotten Bewegungen etwa beim Jonglieren.
Tiefes Denken
Dahinter steckt ein spezielles von neuronales Netz, das Forscher als "gefaltetes neuronales Netzwerk" bezeichnen ? was so etwas leistet, erregt gerade unter dem Begriff "Deep Learning" für Aufsehen. Das neuronale Netzwerk wurde mit über zehntausend Bildern trainiert, denen Informationen über die entsprechenden Gelenkwinkel annotiert waren. Bevor VNect allerdings versucht, anhand dieser Erfahrungswerte die Pose zu rekonstruieren, bestimmt das System die Position der Person im Bild um die Verarbeitung des Video-Stroms auf diesen Bereich zu beschränken was Rechenzeit spart.
Gegenüber der Bewegungserfassung etwa mit der Kinect-Tiefenkamera von Microsoft hat die Methode laut ihren Entwicklern nicht nur den Vorteil, ohne solche Spezial-Hardware auszukommen allerdings auch bei hellem Sonnenlicht zu funktionieren bei dem die Kinect Probleme bekommt. Darüber hinaus kann man den Algorithmus auch auf Videos loslassen die man unterwegs mit dem Handy gefilmt hat, also Bewegungsabläufe nachträglich tracken lassen.
Vermummungsverbot
Wie die Forschergruppe einräumt, hat das System freilich aktuell noch Einschränkungen: Es arbeitet etwas weniger genau als Verfahren mit mehreren Kameras oder Markern. VNect gerät auch in Schwierigkeiten – wenn das Gesicht der Person verdeckt ist. Darüber hinaus dürfen die Bewegungen nicht zu schnell werden und sich auch nicht völlig von den gelernten Vorbildern entfernen ? das liegt bei trainierten neuronalen Netzen in der Natur der Sache. Posen, bei denen die gefilmte Person mit den eigenen Gliedmaßen zu viel von sich selbst verdeckt sind ähnlich wie problematisch mit mehreren Personen im Bild kann VNect derzeit nicht umgehen.
Die Forscher werden ihr System VNect in Honolulu vom 21. bis 26. Juli auf der Computer-Vision-Konferenz CVPR zeigen, anschließend präsentieren Sie es auf der SIGGRAPH in Los Angeles vom 30. Juli bis 3. August.
- Paper (PDF): Mehta, Dushyant and Sridhar, Srinath and Sotnychenko, Oleksandr and Rhodin, Helge and Shafiei, Mohammad and Seidel, Hans-Peter and Xu, Weipeng and Casas, Dan and Theobalt, Christian: VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera, ACM Transactions on Graphics
Kommentare