Die Welt der Technologie bietet uns ständig neue Innovationen, die unser tägliches Leben verändern können. Eines dieser bahnbrechenden Werkzeuge ist das Voice Cloning – die Revolution in der Stimmtechnologie. Kürzlich hatte ich die Gelegenheit, meine eigene Stimme zu klonen, und das Ergebnis war schlichtweg beeindruckend. Ich habe selbst probiert und in diesem Artikel zusammengefasst, welche Anwendungsbereiche für geklonte Stimmen existieren könnten.

Was ist Voice Cloning?

Voice Cloning, ist ein Prozess, bei dem eine Software verwendet wird, um eine digitale Kopie einer menschlichen Stimme zu erstellen. Durch den Einsatz von künstlicher Intelligenz (KI) und maschinellem Lernen kann diese Software menschliche Stimmen mit erstaunlicher Genauigkeit reproduzieren.

Wie kann ich meine Stimme klonen?

Auf der Suche nach einem geeigneten Tool bin ich auf die Software von ElevenLabs gestoßen. ElevenLabs ist ein amerikanisches Softwareunternehmen, das Software für natürlich klingende Sprachsynthese und Text-to-Speech entwickelt und dabei künstliche Intelligenz und Deep Learning nutzt. Auf der Seite bekommt man, ohne Registrierung, die Möglichkeit Text in natürliche Sprache umzuwandeln und so künstliche Stimmen auszuprobieren. Zum Klonen der eigenen Stimme ist es erforderlich, ein kostenpflichtiges Creator-Abo abzuschließen. Gesagt, getan.

Der Prozess: Einfach und schnell

Der Voice-Cloning-Prozess war unglaublich einfach und effizient. Mit nur einer 120-Sekunden-Aufnahme meiner eigenen Stimme konnte das Tool ein Modell erstellen, das in der Lage war, Worte und Sätze zu generieren, die genauso klangen, als hätte ich sie selbst gesprochen. Diese Geschwindigkeit und Genauigkeit sind auf Basis dieser kurzen hochgeladenen Sequenz beeindruckend.

Sicherlich lässt sich das Ergebnis noch weiter optimieren. Für mich war es im ersten Schritt nur relevant herauszufinden, wie es funktioniert und wie schnell ich ein Ergebnis bekomme.

Meine Stimme als Musikinstrument

Interessant ist, dass mich das Tool meine eigene Stimme wie ein Musikinstrument benutzen lässt. Ich kann die Geschwindigkeit, Stil und Variablen ändern. Dies lässt mich innerhalb von Sekunden Anpassungen vornehmen, die ich, als Nicht-Profi-Sprecherin, vielleicht so nicht umsetzen könnte. Außerdem kann ich dadurch meine Stimme für die Übersetzung von Text-to-Speech in unterschiedlichen Sprachen verwenden. Hier auf Englisch, Französisch und Schwedisch:

In meinem letzten Artikel habe ich davon berichtet, wie eine KI Radio macht. Das Programm von Absolut Radio AI wird von einer KI namens kAI moderiert. Bei kAI handelt es sich tatsächlich um eine geklonte Stimme. Die Technologie kann innerhalb weniger Minuten das Programm in unterschiedlichen Sprachen ausgeben und Hunderte von Radiosendern erzeugen, die überall auf der Welt mit der gleichen Stimme gehört werden können.

Voice-Cloning: Schlüssel zur effektiven Aussteuerung mehrerer Sprachen

Die vertraute Stimme in unterschiedlichen Sprachen zu hören, kann für die Hörer:innen authentischer wirken, insbesondere wenn die ursprüngliche Person und deren Stimme bekannt ist. Haben Sie schon einmal die synthetischen Stimmen bei Simultanübersetzungen von kurzen Videos gehört? Sie wirken eher statisch und funktional. Die eigene Stimme trägt individuelle emotionale Nuancen. Die Fähigkeit, in mehreren Sprachen zu kommunizieren, ermöglicht eine direktere und angepasste Kommunikation mit unterschiedlichen Zielgruppen, wodurch kulturelle Sensibilität und Inklusion gefördert werden. Für Persönlichkeiten oder Marken kann die Stimme ein erkennbares Merkmal sein. Ein einheitliches Stimmbranding über Sprachgrenzen hinweg kann darüber hinaus die Markenidentität stärken.

Einsatz von Voice-Cloning

Das Einsatzgebiet von geklonten Stimmen ist vielfältig und mit Vorsicht einzusetzen. Ein positives Beispiel aus dem Bereich Serien ist die Neuauflage der Kinderserie Pumuckl. Ende 2023 soll die Serie beim Streaming-Dienst RTL+ erscheinen, wie die Augsburger Allgemeine berichtete. Künstliche Intelligenz und Voice-Cloning spielt hier eine große Rolle. So bekommen die Zuschauer:innen die Möglichkeit, Pumuckl in zwei Versionen zu hören. In einer leiht Kabarettist Maxi Schafroth dem Pumuckl seine Stimme und in einer anderen Version hört man den verstorbenen Originalsprecher Hans Clarin. Ich bin gespannt auf das Ergebnis.

Ethik und Verantwortung

Während die Möglichkeiten endlos erscheinen, ist es natürlich auch wichtig, die ethischen Bedenken zu berücksichtigen. Es ist entscheidend, sicherzustellen, dass Stimmklone nicht in irreführender Weise verwendet werden oder die Identität einer Person ohne deren Zustimmung kompromittieren. Während die EU die KI-Verordnung noch in Bearbeitung hat, sehen sich Unternehmen bereits jetzt mit rechtlichen Herausforderungen konfrontiert. Für eine einheitliche interne Kommunikation wäre es für Unternehmen bereits jetzt ratsam, Leitlinien für den Umgang mit KI zu etablieren.

Fazit

Die Voice-Cloning-Technologie, besonders mithilfe von Tools wie ElevenLabs, stellt eine wegweisende Innovation dar. Sie bietet eine Fülle von Anwendungen für die eigene und weitere synthetische Stimmen. Wie bei jeder Technologie liegt es an uns, sie verantwortungsbewusst und ethisch zu nutzen. In einer Welt, in der die menschliche Stimme so kraftvoll ist, könnte die Fähigkeit, sie zu klonen, aus meiner Sicht sowohl inspirierend als auch transformativ sein.

Bleiben Sie auf ZAC!

Quellen: Integrierte Links aus Augsburger Allgemeine und ElevenLabs, Sounds generiert mit ElevenLabs