Testbericht: ElevenLabs – Was taugt der KI Audio Generator?

ElevenLabs ist ein US KI Unternehmen welches in den Bereichen „Text zu Speech“ zu den Marktführern gehört. Erst 2022 von ehemaligen Google Mitarbeitern gegründet hat das Unternehmen mit seinen KI-gestützten Technologien zur Sprachsynthese in kurzer Zeit auf sich aufmerksam gemacht. ElevenLabs bietet Softwarelösungen an, die eine realistische und menschenähnliche Sprachgenerierung ermöglichen. Ziel ist es, Stimmen zu erzeugen, die nahezu nicht von natürlichen Stimmen unterscheidbar sind. Solche Lösungen kommen mittlerweile in verschiedenen Bereichen, etwa in der Medienproduktion, im Bildungssektor oder bei automatisierten Kundenservices, zum Einsatz.

Doch wie funktioniert ElevenLabs und wie kompliziert ist die Handhabung? Wie machen den Test:

Stimmen Katalog

ElevenLabs bietet eine immense Auswahl an wählbaren Stimmen in unterschiedlichen Sprachen. Um mit der KI Text to Speech Aufnahmen zu generieren muss also zuerst die passende Stimme gefunden werden. Dazu steht ein umfassender Katalog zur Verfügung. Wichtig ist eine Stimme zu wählen welche die später gewünschte Sprache unterstützt. Die vorhandenen Stimmen können zudem nach Bewertungen der anderen User ode rauch nach Alter, Geschlecht etc. gefiltert werden:

ElevenLabs: Umfangreicher Katalog an Stimmen sind zur Auswahl.

Text to Speech

Sobald die passender Stimme ausgewählt ist, können wir auch bereits mit der Text to Speech Generierung beginnen. Dabei wird der betreffende Text entsprechend in den Prompt eingegeben und auf „Generate Speech“ geklickt. ElevenLabs generiert das Audio File nun mit mindestens zwei unterschiedlichen Modellen bzw. verschiedenen Modellgenerationen:

ElevenLabs: Text to Speech von einem individuellen Text.

Bereits während der Generierung kann das Audio File abgespielt werden. Das ist praktisch bei längeren Texten bei dem die KI länger mit der Audio Generierung beschäftigt ist. Für unser Sample Text „Herzlich willkommen auf nexano.de. Ich wünsche dir einen schönen Tag.“ hat ElevenLabs folgendes Audio File generiert:

Die Stimmen können jederzeit ausgetauscht werden. Innert wenigen Sekunden generiert ElevenLabs ein neues Audio File basierend auf dem bestehenden Prompt. So wechseln wir vom weiblichen Stimmenmodell Mila auf das männliche Stimmenmodell Sascha. Das Ergebnis wie folgt:

Voice Changer

ElevenLabs bietet mit der Voice Change Funktion eine Möglichkeit bestehende Audio Files zu importieren und das verwendete Sprachenmodell zu ändern. Dazu importieren wir das zuvor generierte Sprachfile von unserem „Mila“ Sprachmodell und lassen das File neu generieren unter Verwendung eines anderen Sprachmodells.

ElvenLabs Voice Changer: Verwendetes Sprachmodell im nachhinein ändern

Das klappt einwandfrei innert Sekunden. Die hochgeladene Sprachdatei wird von ElevenLabs eingelesen und mit dem neuen Sprachmodell „Sascha“ neu generiert.

Soundeffekt Generator

Eine weitere Funktion ist ein Soundeffekt Generator. Mittels Prompteingabe wird beschrieben was für ein Effekt gewünscht wird und ElevenLabs generiert sogleich einige Vorschläge. Die Audio File Generierung geht auch hier relativ schnell und die Audio Vorschau zeigt innert Sekunden erste Ergebnisse. Hier zeigt sich nun eine Schwäche von ElevenLabs in der Verarbeitung von Prompts in deutscher Sprache. Anders als bei der Voice Generierung bei der die Audio Generierung in deutscher Sprache perfekt funktioniert versteht der Soundeffekt Generator unsere Spracheingaben nicht. Folgender simpler Prompt: „Bellender Hund“ führt zu folgendem kuriosen Audio File:

Keine Ahnung, was uns die KI hier sagen will. Wenn wir die Eingabe in Englisch machen funktioniert die Soundeffekt Generierung jedoch tadellos wie folgende Prompteingabe und das entsprechende Ergebnis zeigt: „Dog barking“.

Speech to Text

ElevenLabs bietet auch eine Speech to Text Funktion an. Audiofiles von Gesprochenem soll damit in Text umgewandelt werden. Auch hier interessiert uns natürlich primär wie das transkribieren in deutscher Sprache funktioniert. In der Praxis zeigt sich, dass die Transkription grundsätzlich gut funktioniert. Jedoch schleichen sich immer wieder Fehler ein. So wird das zuvor erzeugte Audio File wie folgt in Text umgewandelt:

Elevenlabs: Ergebnis eines Speech to Text Tests.

Elevenlabs schreibt nixano statt nexano und versteht nicht, dass es sich hierbei um eine Domain handelt.

Weitere Funktionen

ElevenLabs bietet eine ganze Fülle an weiteren Funktionen im Bereich Audio Generierung mittels Verwendung von künstlicher Intelligenz. So kann auch eine eigene Stimme mittels KI generiert werden. Hierzu stehen verschiedene Möglichleiten zur Auswahl:

  • Generierung eines Stimmmodells via Prompteingabe
  • Generierung eines Stimmmodells über Spracheingabe (Voice Cloning)

Im Bereich Voice Cloning stehen zwei Varianten zur Verfügung: Mit „Instant Voice Clone“ wird basieren auf einem mindestens 10 sekündigen Sample ein Stimmenmodell generiert. Mit „Professional Voice Clone“ wird basierend auf einem mindestens 30 minütigen Sprachfile eine deutlich präziseres Stimmenmodell generiert.

Anwendungszwecke

Die KI Funktionen von ElevenLabs bilden die Basis für eine schier unendliche Fülle an möglichen Anwendungszwecke auch im Unternehmensbereich. Beispiels dafür sind:

  • Automatische Übersetzung von Sprachdateien wie eLearnings oder Podcasts in andere Sprachen
  • KI Helpdesk Agents die via Telefon ereichbar sind und via ElevenLabs API in natürlicher Sprache kommunzieren
  • Personalisierte, auf KI basierende Lernmittel (dem Trainer eine Stimme geben)

Preise

ElevenLabs bietet verschiedene Abomodelle an. Im kostenlosen Free Account bekommt der Nutzer pro Monat 10’000 Credits gutgeschrieben. Credits können zur Nutzung der Funktionen wie Text to Speech verwendet werden. Mit dem Free Account lassen sich bereits einige Aufgaben erledigen, es stehen jedoch nicht alle Funktionen zur Verfügung. Abomodelle:

ElevenLabs Preise per 04.07.2025

Fazit

ElevenLabs zeigt eindrücklich, was im Jahr 2025 mittels KI im Bereich Audio Generierung geht. Die Text to Speech Generatoren erzeugen nahezu perfekte, menschliche Stimmen. Auch in deutscher Sprache funktioniert das gut. Bei den übrigen Funktionen hat ElevenLabs teilweise Mühe Prompts in deutsch zu verstehen. Unter dem Strich überzeugt ElevenLabs jedoch mit einer sehr einfachen Bedienung und leistungsstarken Funktionen. Ohne grosse Einarbeitungszeit lassen sich schnell überzeugende Ergebnisse erzielen. Der kostenlose Free Account bietet zudem bereits ein beachtliches Funktionsangebot. Hier sind andere KI Tools Anbieter häufig deutlich knausriger.

ElevenLabs Testbericht

    4.5 / 5

    Pros
    • Starke Text to Speech Funktionen
    • Natürliche Stimmausgabe
    • Viele Stimmenmodelle vorhanden
    • Deutsche Stimmmodelle verfügbar
    • Kostenloser Account mit vielen Funktionen
    Cons
    • Teilweise Schwächen bei deutschen Prompts
    • Keine deutsche Benutzeroberfläche
    1
    Show Comments (0) Hide Comments (0)
    Hinterlasse einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert