In der Firmengeschichte von infobroker.de ist bereits der Einsatz vin KI-Technologien für die Content-Erstellung, Marketing und die Datenanalyse ein Meilenstein. Mit dem Klonen von Stimmen geht es in die nächste Phase eine neue Generation Inhalte zu erstellen. Audiobeiträge, Podcasts und Video-Vertonung auf KI-Basis. Den Start macht die Synthetisierung der Stimme von Michael Klems. Die Idee hinter dieser Maßnahme: Auf diese Weise lassen sich Texte direkt in die täuschend echte KI-Stimme von Michael Klems transformieren.
Zeiteinsparung bei der Audio-Produktion
Bislang war bei der Produktion von Audio-Beiträgen ein Mikrofon das elementare Werkzeug. Mit der Text-to-Voice Funktion von KI-Tools kann ein Beitrag in ein Audio-Format gewandelt werden. Dies ist möglich mit vorhandenen Sprecherchemustern oder mit der eigenen Stimme, die vorab der KI zum Erlernen gegeben wird.
Die Vorteile liegen auf der Hand. Zahlreiche Texte können effizient in ein Audio-Format per KI-Tool gesprochen werden. Aber auch reine Podcast-Produktionen werden effizienter. Intros oder Abschlüsse können als professionelle Vorlagen generiert werden. Zudem kennt die KI keine Heiserkeit oder schlechte Stimmlagen.
Starke Tools: Elevenlabs und Murf.ai
Für die technische Umsetzung bei Text to Voice Projekten haben wir bislang Murf.ai eingesetzt. Das Text-to-Voice System bietet zahlreiche Stimmen und Sprachvarianten für die Vertonung an. Gerade für die internationale Erstellung von Audio-Beiträgen in englischer, französischer und spanischer Sprache ist das Tool effizient nutzbar.
Für das Projekt der eigenen Stimme führt an Elevenlabs kein Weg vorbei. Das KI-Tool benötigt für die Lernphase ein Sprechbeispiel von mindestens einer Minute. Dies kann per direkter Mikrofoneinsprache oder als mp3-Upload in das System gegeben werden. Die Beispiele sollten keine Hintergrundgeräusche aufweisen, damit die Stimme deutlich für das Einlernen ausgelesen werden kann. Elevenlabs bietet das Einspielen von bis zu 25 Audiobeispielen an. Von dieser Menge sollte man regen Gebraucht machen, denn umso besser ist das geklonte Stimmergebnis.
Die eigentliche Lernphase nach dem Absenden dauert erstaunlicherweise nur wenige Sekunden.
Starkes Ergebnis und noch stärkere Möglichkeiten
Was dann als „neue“ generierte Stimme im Lautsprecher zu hören ist, verschlägt einem den Atem. Täuschend echt am Original und mit einem satten Sound.
Elevenlabs kann aber noch mehr zaubern. Das Ergebnis des Textes kann im deutschen Original ausgegeben werden. Je nach Texteingabe kann Elevenlabs bis zu 26 Sprachen erzeugen. So spricht das eigene „Ich“ englisch, französisch oder auch niederländisch. Faszinierend und erschreckend zugleich. Die Chancen und Möglichkeiten sind jedoch gigantisch.
Enormes Content-Volumen wartet auf Audio
Innerhalb von infobroker sind sehr große Content-Vokommen die auf eine Audio-Transformation warten. Dies reicht vom Support rund um die infobroker.de Recherchedienste, Blog und dem riesigen Open Password Archiv.
Letzteres verfügt über starke fachliche Beiträge die sich ideal in ein „Hör-Artikel-Format“ wandeln. Hier sind bereits die ersten Beiträge im Audio-Format geplant. Damit die auf Textbasis formulierten Fachartikel auch flüssig zu hören sind wird ein weiterer KI-Einsatz notwendig. Die Wandlung von Schreibtext in einen Sprechtext. Für diesen Arbeitsschritt wird auf einen ChatGPT Prompt gesetzt.
Michael Klems hat sich Klonen lassen
Den Start macht jedoch zuerst das kleine Beispiel der geklonten Stimme von Michael Klems die an verschiedenen Stellen im KI-Format zu hören sein wird.
Es sei angemerkt, dass es sich beim ersten Klonversuch von Michael Klems um einen Schnellschuss handelt. Die Kunst liegt in der Gestaltung der Sprechtexte. Hier werden wir noch einiges an Erfahrung sammeln und mit der Umsetzung wachsen.