Im Bereich der KI Videogenerierung werden aktuell massive Fortschritte erzielt. Mit der Lancierung von Veo 3 durch Google im Juli 2025 ist ein neuer Meilenstein erreicht. Kann Konkurrent OpenAI mit seiner Sora Video KI noch mithalten? Wir machen den Test.
Sora von OpenAI basiert ursprünglich auf dem DALL-E 3Text to Image KI Modell welches erweitert wurde. Veröffentlicht wurde Sora per Ende 2024. Seit Ende Februar 2025 ist Sora auch in Deutschland verfügbar. Im Gegensatz zu neuen Text to Video KI Generatoren kann Sora weiterhin kein Audio erstellen.
Testvideos mit OpenAI Sora im Juli 2025
Wir generieren einige Test Video welche wir auch mit in unserem Veo 3 Testbericht generiert haben. Du kannst die Vergleichsvideos hier anschauen. Starten wir mit unserem Elefanten vor dem Brandenburger Tor. Wir verwenden folgenden Prompt: „Am Brandenburger Tor in Berlin. Ein Elefant läuft über den Platz. Am Himmel fliegt ein grosser Flieger vorbei. Die Menschen winken dem Flieger zu“. Ergebnis:
Das von OpenAI Sora generierte Video ist ungenügend und fehlerhaft. Das Flugzeug ist falsch dargestellt, die Personen winken nicht dem Flieger zu und das Video sieht generell nicht realistisch aus.
Versuchen wir es mit einem weiteren Beispielprompt am Brandenburger Tor. Wir geben der Videogenerierungs KI folgendem Prompt für die Videoerstellung mit: „Filme wie von einer TV Kamera. Berlin am Brandenburger Tor. Vom Platz startet eine 50 Meter lange Rakete in Richtung Weltall. Die Rakete ist weiss. Sonnenuntergang.“ Ergebnis:
Auch in diesem Beispiel ist das Ergebnis der OpenAI KI schwach. Die Rakete sieht völlig unrealistisch aus. Die Flugbahn passt nicht. Die Personen sind direkt in den Triebwerksflammen der Rakete positioniert.
Versuchen wir es mit einem deutschen Klassiker: Der Curry Wurst. Wir wollen von der Sora KI folgenden Prompt als Video haben: „„Eine deutsche Currywurst, eine Frauenhand streut Currypulver darüber. Sonniges Wetter. Eine Wespe landet auf der Currywurst und niest.“ Ergebnis:
Leider scheitert die Künstliche Intelligenz von OpenAI hier erneut deutlich. Die KI versteht das Setting falsch. Die Wespe wird in der Hand gehalten. Die Person hält etwas undefinierbares in der Hand. Nicht brauchbar.
Packen wir zu Letzt noch ein Schippe drauf. Zum Schluss lassen wir Sora ein Video auf Basis des folgenden Prompts erstellen: „Ein Selfie-ähnlicher Vlog, aufgenommen mit der Kamera hochgehalten und leicht nach unten geneigt. Er zeigt einen rau wirkenden römischen Gladiator in voller Rüstung, der durch einen geschäftigen antiken Marktplatz läuft. Hinter ihm bewegen sich Zivilisten – Händler rufen lautstark, Bäcker tragen Brot, Kinder jagen einander. Der Gladiator richtet mit einer Hand seinen bronzenen Helm, während er mit der anderen sein „Handy“ ruhig hält. Gladiator singt wie Luciano Pavarotti. Das Licht ist golden und warm, mit geringer Tiefenschärfe, sodass sein ausdrucksstarkes Gesicht und die in der Sonne funkelnde Rüstung im Fokus bleiben.“ Ergebnis:
Unser letzter Test fällt besser aus als zuerst erwartet. Die KI scheint das Setting grundsätzlich verstanden zu haben. Die Personen im Hintergrund scheinen aus der Gegenwart zu sein obwohl wir der KI sagen, dass wir uns auf einem antiken Marktplatz befinden.
Fazit
Unglaublich, was mehrere Monate Entwicklungszeit im Bereich der heutigen Künstlichen Intelligenz bedeuten. Noch Ende 2024 war der Videogenerator „Sora“ von OpenAI absolut im Rennen. Nachdem Google im Juli 2025 sein neues Veo 3 Video Generator Modell lanciert hat, gehört Sora aufs Abstellgleis. Vergleichen wir die Ergebnisse der gleichen Prompts mit Veo 3 sind die Unterschiede eklatant. Die Veo 3 Videos sind deutlich realistischer und gleichzeitig noch passend vertont. Bei OpenAI’s Sora gibt es keinen Ton und die generierten Ergebnisse erscheinen als aus der Zeit gefallen. Höchste Zeit also, dass OpenAI demnächst nachlegt.
Testbericht: Videogenerator Sora von OpenAI (Juli 2025)
3 / 5
Pros
- Relativ schnelle Videogenerierung
- Videos können nach Generierung bearbeitet werden
Cons
- KI versteht Setting teilweise falsch
- Unrealistische Umsetzung von Elementen
- Kein Audio möglich
- Deutlich schlechtere Ergebnisse im Vergleich zu z.B: Veo 3