
Forscher des Max-Planck-Instituts für Informatik, des Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence (VIA), des MIT CSAIL und der Universität Pennsylvania haben eine zukunftsweisende Methode für die Bildbearbeitung entwickelt. DragGAN erlaubt es, Mimik, Pose, Perspektive und weitere Eigenschaften von Fotos einfach und flexibel mittels Drag & Drop zu ändern. Im Gegensatz zu bisherigen Programmen benötigt man kein umfangreiches Wissen in der Fotobearbeitung. Start- und Endpunkte werden auf dem Foto markiert und das GAN generiert ein neues Foto, das den gewünschten Änderungen entspricht. Bisher ist das System auf Kategorien wie Menschen, Tiere, Landschaften oder Fahrzeuge beschränkt.
Die Zukunft von Photoshop & Co.?
"Da diese Manipulationen auf der gelernten generativen Bildvielfalt eines GAN durchgeführt werden, führen sie zu realistischen Ergebnissen, selbst bei schwierigen Szenarien wie der Halluzination verdeckter Inhalte und der Verformung von Formen, die konsequent der Steifigkeit des Objekts folgen", schreiben die Wissenschaftler in ihrer Veröffentlichung für die im August stattfindende Computergrafikmesse SIGGRAPH23, das Interessierte beispielsweise bei arXiv herunterladen können. Wie gut DragGAN tatsächlich funktioniert, kann man bisher nicht selbst ausprobieren, sondern lediglich Beispielvideos von der DragGAN-Webseite des Max-Planck-Instituts für Informatik anschauen:
Laut einer Ankündigung auf der bisher nur rudimentären GitHub-Projektseite kündigt der Hauptautor Xingang Pan an, Quellcode für DragGAN im Juni veröffentlichen zu wollen. Wie viele andere Projekte nutzt DragGAN die für maschinelles Lernen optimierte Pythonbibliothek PyTorch. Zu den Hardware-Anforderungen ist bisher nichts bekannt. Die Autoren schreiben lediglich: "Dank der Effizienz unseres Ansatzes müssen die Nutzer nur wenige Sekunden warten und können die Bearbeitung fortsetzen, bis sie zufrieden sind." Noch befindet sich DragGAN in einem frühen Stadium, sodass die Qualität der Resultate trotz einer gewissen Extrapolationsfähigkeit derzeit von der Vielfalt der Trainingsdaten beeinflusst sei.
Kommentare