Vor kurzem hat Google sein neusten KI Videogenerierungs-Modell „Veo 3“ vorgestellt. Seit einigen Tagen ist Veo 3 nun in Deutschland für Bezahlkunden verfügbar. Die Vorschusslorbeeren für das neue KI Modell von Google waren immens. Was taugt Veo 3? Wir schauen es uns in diesem Testbericht an.
Zugang zu Google Veo 3
Die neue Veo 3 Videogenerierungs KI steht ab sofort für Bezahlkunden mit einem Gemini Pro Account zur Verfügung. Mit einem Pro Account können aktuell pro Tag 3 Videos mit einer länge von maximal 8 Sekunden erstellt werden. Nach 24 Stunden wird der Zähler jeweils zurückgesetzt. Folgender Hinweis wird jeweils eingeblendet sobald das Tageslimit erreicht ist:

Integriert ist die Veo 3 Videogenerierung in den normalen Google Gemini KI Chat Bot. Soll ein Video mit Veo 3 erstellt werden, wird unterhalb der Prompt Eingabe in Google Gemini einfach auf Video geklickt:

Im Gegensatz zu anderen beliebten KI Videogeneratoren wie beispielsweise Midjourney, kann Veo 3 Videos auch gleich vertonen. Es können also Soundeffekte oder Musische Inhalte bei der Generierung mit erstellt werden.
Erstellung von Videos mit Google Veo 3
Die Erstellung von Videos mit Google Veo 3 ist äusserst simpel. Im Gegensatz zu anderen Videogeneratoren wie Midjourney oder leonardo.ai welche viele Optionen und Einstellungsmöglichleiten bieten, ist bei Veo 3 aktuell nur eine simple Texteingabe möglich. Es wird also der normale bereits bekannte Google Gemini Chat Prompt verwendet für die Prompteingabe. Starten wir mit dem ersten Beispiel. Wir geben folgenden Prompt in die Veo 3 Videogenerierung ein: „Am Brandenburger Tor in Berlin. Ein Elefant läuft über den Platz. Am Himmel fliegt ein grosser Flieger vorbei. Die Menschen winken dem Flieger zu. Audio: Ohrenbetäubender Fluglärm.“. Ergebnis:
Das Ergebnis ist eher schwach. Die Menschen im Vordergrund scheinen nicht realistisch animiert zu sein. Sie winken in verschiedene Richtungen und nicht zum Flugzeug zugeneigt. Die Personen im Hintergrund bewegen sich zudem überhaupt nicht. Ein ähnlicher Prompt haben wir mit Midjourney generiert und ein deutlich besseres Ergebnis erhalte. (Siehe: Midjourney im Test: Was kann der Bild- und Videogenerator?).
Zeit also für das nächste Beispiel: Wir geben folgenden Prompt in die KI ein: „Filme wie von einer TV Kamera. Berlin am Brandenburger Tor. Vom Platz startet eine 50 Meter lange Rakete in Richtung Weltall. Die Rakete ist weiss. Sonnenuntergang. Audio: Ohrenbetäubender Lärm der Rakete.“ Ergebnis:
Beispiel 2 ist schon gelungener. Absolut perfekt ist das Audio umgesetzt. Der Raketenstart ist wirklich ohrenbetäubend. Der Raketenstart ist zudem relativ realistisch animiert. Auch das Ambiente mit dem gewünschten Sonnenuntergang passt. Die Personen auf dem Platz scheinen aber einfach stehen zu bleiben. Anderen Video Generatoren wie Midjourney binden die Reaktion von Passanten meist automatisch ins Drehbuch ein. Sprich: Ohne das im Prompt explizit beispielsweise erwähnt würde, dass die Personen auf Grund des Raketenstarts wegrennen würden, wird dies von Midjourney häufig automatisch umgesetzt.
Zeit für ein weiteres Beispiel. Wir geben der Veo 3 KI folgenden Prompt als Aufgabe: „Eine deutsche Currywurst, eine Frauenhand streut Currypulver darüber. Sonniges Wetter. Eine Wespe landet auf der Currywurst und niest. Audio: Wespe am fliegen und niesen.“ Ergebnis:
Video drei ist aus unserer Sicht sehr gelungen. Die Umsetzung der Currywurst und insbesondere das darauf streuen des Currypulvers ist sehr realistisch. Die Wespe ist ebenfalls sehr realistisch umgesetzt. Das Audio passt. Der relativ kurze Prompt wurde aus unserer Sicht top von der KI umgesetzt.
Doch wie sieht das Ergebnis mit einem etwas längeren Prompt aus der viele Details vorgibt? Wir verwenden folgenden, längeren Prompt: „Ein Selfie-ähnlicher Vlog, aufgenommen mit der Kamera hochgehalten und leicht nach unten geneigt. Er zeigt einen rau wirkenden römischen Gladiator in voller Rüstung, der durch einen geschäftigen antiken Marktplatz läuft. Hinter ihm bewegen sich Zivilisten – Händler rufen lautstark, Bäcker tragen Brot, Kinder jagen einander. Der Gladiator richtet mit einer Hand seinen bronzenen Helm, während er mit der anderen sein „Handy“ ruhig hält. Gladiator singt wie Luciano Pavarotti. Das Licht ist golden und warm, mit geringer Tiefenschärfe, sodass sein ausdrucksstarkes Gesicht und die in der Sonne funkelnde Rüstung im Fokus bleiben.“
Ergebnis:
Fazit
Die hier gezeigten Beispielvideos sind ein kurzer Auszug aus den von uns bereits generierten Video unter Verwendung des Veo 3 Modelles von Google Gemini. Extrem gut scheint generell die Audio Generierung zu funktionieren. Ohne grosse Anweisungen zu geben scheint die KI gut zu erfassen um was es geht um welche Soundeffekte ins Drehbuch passen. Die Audio Effekte klingen meist top. Auch die Videogenerierung setzt aus unserer Sicht derzeit neue Massstäbe. Mit Veo 3 lassen sich wirklich extrem realistische Videos erstellen. Eine Unterscheidung ob reale Aufnahme oder KI-generiert ist häufig nicht mehr möglich. Mit Google Gemini Veo 3 ist der Punkt nun also 100%ig definitiv erreicht: KI erstellte Videoinhalte welche absolut realistisch aussehen, kann jedermann innert paar wenigen Minuten erstellen und verbreiten. Die Videos enthalten ein sichtbares Wasserzeichen und ein unsichtbares digitales SynthID-Wasserzeichen um den KI generierten Content zu kennzeichnen.
Google Gemini Veo 3 Videogenerator Testbericht
4.5 / 5
Pros
- Sehr gute Audiogenerierung
- Sehr realistische Videoaufnahmen möglich
- Passende und realistische Drehbücher
- Deutsche Eingabe wird sehr gut verstanden
Cons
- Kostenpflichtiges Abo notwendig
- Kaum Einstellungs- und Filtermöglichkeiten