Google stellt Imagen Video vor: Neue KI-Software für Text-zu-Video

Google befeuert Text-zu-Video-Trend mit Imagen Video

In der Welt der generativen künstlichen Intelligenz (KI) ist die Saison eröffnet und die großen Unternehmen konkurrieren um die Vorherrschaft. Letzte Woche startete Meta mit seinem KI-Videogenerator-Tool Make-A-Video, das es Benutzern ermöglicht, Textaufforderungen in kurze, qualitativ hochwertige und einzigartige Videoclips zu verwandeln. Google hat nun mit Imagen Video nachgezogen, einem neuen generativen KI-Modell für Text-zu-Video.



Google setzt den Trend fort


Google geht damit einen Schritt weiter und reiht sich ein in den Trend der letzten Zeit, der mit der Text-zu-Bild-Technologie begann. Im vergangenen Jahr sahen wir die Einführung von DALL-E, MidJourney und Stable Diffusion. Nun präsentiert Google Imagen Video: High Definition Video Generation with Diffusion Models.



Imagen Video vs. Make-A-Video


Google hat seinen Text-zu-Video-KI-Modus weniger als eine Woche nach der Einführung von Make-A-Video durch Meta vorgestellt. Im Gegensatz zu Meta verwendet Imagen Video jedoch mehrere Ausgangsframes, um ein Video zu erstellen, anstatt nur auf einem Standbild zu basieren. Laut Google kann Imagen Video 1280×768-Videos mit 24 Bildern pro Sekunde aus einer schriftlichen Aufforderung generieren.



Wie funktioniert Imagen Video?


Imagen Video verwendet kaskadierte Diffusionsmodelle, um hochauflösende Videos zu erzeugen. Zunächst wird eine Eingabeaufforderung mit einem T5-Textencoder in textuelle Einbettungen kodiert. Ein Basis-Video-Diffusionsmodell generiert dann ein 16-Bilder-Video mit einer Auflösung von 24×48 und drei Bildern pro Sekunde. Anschließend werden mehrere Modelle für zeitliche Superauflösung (TSR) und räumliche Superauflösung (SSR) verwendet, um ein Upsampling durchzuführen und ein endgültiges 128-Bilder-Video mit einer Auflösung von 1280×768 und 24 Bildern pro Sekunde zu generieren.



Was sind die stilistischen Fähigkeiten von Imagen Video?


Google hat Imagen Video mehrere stilistische Fähigkeiten verliehen, darunter das Erstellen von Videos im Stil berühmter Maler wie Vincent van Gogh, rotierende 3D-Objekte mit Beibehaltung der Objektstruktur und die Darstellung von Text in einer Vielzahl von Animationsstilen.



Wie wurden die Trainingsdaten beschafft?


Die Trainingsdaten stammen aus einem internen Google-Datensatz aus 14 Millionen Video-Text-Samples und 60 Millionen Bild-Text-Paaren sowie dem öffentlich zugänglichen LAION-400M-Bild-Text-Datensatz.



Wo liegen die Herausforderungen?


Google warnt jedoch vor einigen Sicherheits- und ethischen Herausforderungen, die noch bewältigt werden müssen. Imagen Video neigt dazu, Inhalte mit "sozialen Vorurteilen und Stereotypen" zu generieren, was schwer zu filtern und zu erkennen ist. Aus diesem Grund wird Google das Modell oder den Quellcode von Imagen Video vorläufig nicht veröffentlichen und auch kein Anmeldeformular für Interessenten bereitstellen.



Fazit


Google hat mit Imagen Video einen weiteren Schritt in der Entwicklung von generativer künstlicher Intelligenz gemacht. Im Vergleich zu Meta gibt es jedoch noch einige Herausforderungen zu bewältigen, insbesondere in Bezug auf Sicherheits- und ethische Bedenken. Wir sind gespannt, was die Zukunft in diesem Bereich bringt.




Zuletzt aktualisiert am Uhr





Kommentare


Anzeige