KI: Die Zukunft der Jingle-Produktion?

Ein Gespräch mit Michel Mertens, Gründer und Geschäftsführer von Shake!FM

Seit dem Start von Shake!FM im Jahr 2017 war es deren großer Traum, ein eigenes, einzigartiges Jingle-Paket zu entwickeln, das perfekt zur Marke und dem Stil des Senders passt. Doch die hohen Kosten für professionelle SängerInnen, MusikerInnen, Studiomieten sowie die aufwändige Pre- und Postproduktion machten dieses Vorhaben lange Zeit unerreichbar. Der Wunsch nach Jingles, die eine Vielzahl von Stilen und Epochen abdecken, stellte eine immense finanzielle Herausforderung dar.

Dann hat Künstliche Intelligenz (KI) neue kreative Möglichkeiten eröffnet. Seit Kurzem präsentiert Shake!FM sein erstes vollständig mit KI erstelltes Jingle-Paket. Sorgfältig ausgewählt, bearbeitet und editiert vom Gründer und Geschäftsführer Michel Mertens, markiert dieses Paket den Beginn einer neuen Ära in der Jingle-Produktion.

Ich habe mit Michel darüber gesprochen, wie KI diese Vision möglich gemacht hat und welche Chancen und Herausforderungen damit verbunden sind.

Lieber Michel, wie kam es zu der Idee, ein eigenes Jingle-Paket mit KI zu entwickeln? Was hat Dich ursprünglich inspiriert, diesen Traum, wie Du es nennst, zu verfolgen?

Der Wunsch nach einem eigenen Jingle-Paket bestand schon immer. Ich glaube, dass jeder Radiosender ein gutes Station-Design samt Jingle-Paket verdient, was einzigartig ist, sich gleichzeitig gut in die Musikprogrammierung und den Flow einfügt.

Die Ansprüche an unser Format sind anders als im Mainstream. Allein die Breite der Veröffentlichungen von den 60s bis heute ist für ein Jingle-Paket eine große Herausforderung. Dazu kommt eine Breite an verschiedenen Genres aus der “Soulful Black Music”. Es gibt so viele Sub-Genres.

Als ich damals das Jingle-Paket von IQ Beats für WKTU in New York hörte, hat es das Feuer entfacht, was Eigenes zu haben. Das war einfach großartig produziert und hätte hundertprozentig zu uns gepasst. Als Webradio-Only hätten wir uns das aber niemals leisten können.

Du hast erwähnt, dass die traditionellen Kosten für SängerInnen, MusikerInnen und Studios sehr hoch sind. Wie hast Du diese Herausforderungen zunächst gemeistert, bevor KI ins Spiel kam?

Ich habe zahlreiche verpackte Drops für Shake!FM selbst produziert. Basis waren oft kommerziell frei nutzbare Bausteine von zahlreichen Loop Paketen. Das war schon ein gewaltiger Schritt nach vorn für ein Webradio-Only Format. Mittlerweile klingen diese Sound Librarys sehr professionell und authentisch. In dem Bereich hat sich ja sehr viel getan. Die Preise sind auch erschwinglich geworden. Es ist halt viel Invest, was Zeit, Arbeit und Fleiss angeht. Zusammen mit den Aufnahmen unserer Station Voice Hendrik Hoffmann verlieh das dem Sender bereits am Anfang einen individuellen und markanten Anstrich.

Vor Shake!FM war ich noch an einem anderen Webradio-Only beteiligt, wo wir sogar mit einer ausgebildeten Sängerin in Hamburg Jingles aufgezeichnet hatten. Das war eine großartige Erfahrung, weil solche Produktionsweisen meines Erachtens Musikproduktionen viel Leben verleihen. Ich bin der festen Überzeugung, dass da unterschwellig viele Vibes im Prozess mitschwingen, die Elemente “von der Stange” nicht liefern können.

Kannst Du beschreiben, wie genau KI in den Produktionsprozess integriert wurde? Welche spezifischen Technologien oder Plattformen habt ihr verwendet?

Ich habe nicht bewusst nach einer Möglichkeit gesucht Jingles zu kreieren, sondern es ergab sich eher aus der Spielerei mit der Technologie: Mit KI Musik erstellen. Wie geht das? Wie klingt das? Wie weit kann die Technologie Merkmale verschiedener Dekaden bezüglich Produktion, Arrangement, Komposition, Klang und auch Gesang adaptieren? Das Interesse an dem Prozess und der Technologie standen erstmal im Vordergrund.

Ich habe mit Suno AI wie aber auch Udio herumexperimentiert. Am Ende war Suno AI vorne, da die generierten Musikbits mehr den musikalischen Vorstellungen von Shake!FM in puncto Arrangement, Sound und Abwechslung entsprachen. Das hat mich beeindruckt. Danach war der Selbstversuch schon beschlossene Sache, Jingles zu erstellen.

Wie viel kreative Kontrolle hattest Du über die von der KI generierten Inhalte? Gab es Überraschungen oder unerwartete Ergebnisse?

Man hat die Kontrolle über das Genre, die Lyrics, wie auch das Arrangement. Auch die Angabe der Dekade im Prompt kann helfen. Mit den Prompts ließ sich hier und da auch beeinflussen, welches Instrument verwendet wird. Die KI lässt aktuell aber keinen Einfluss z.B. auf Tonart oder Partitur zu. Prompts wie “Kreiere einen Song à la Daft Punk” sind auch nicht möglich. Es ist schon eher wie eine McDrive der Musikerstellung mit gewissen Leitplanken. Entweder gefällt es oder nicht. Try and error waren ein ständiger Begleiter beim Erstellungsprozess. Ich habe sehr viel mit Prompts experimentiert.

Es gibt Genres, die die KI aus dem Effeff beherrscht und es gibt Genres, da tut sie sich unheimlich schwer, oder ich habe noch nicht die richtigen Prompts gefunden. Das betrifft z.B. gewisse Unterteilungen der House-Musik. Wie bei richtigen Musikproduktionen gibt es natürlich auch Arrangements, die an sich großartig sind, aber als Jingle nicht funktionieren. Daraus werden dann z.B. Opener, Bumper etc. Dagegen war ich sehr überrascht über die Erstellung von organischer Musik wie Soul, Funk oder Disco. Es geht sicherlich besser, was gewisse Instrumenten-Sounds angeht, aber die musikalische Qualität war ohne zu übertreiben “Mindblowing”.

Du erwähnst, dass das Jingle-Paket viele Stile aus verschiedenen Epochen umfasst. Wie habt ihr sichergestellt, dass die KI diese Vielfalt authentisch abbilden kann?

Bei einem sehr musik-zentrierten Format wie Shake!FM, ist es wichtig, die Stimmungen, die Arrangements, die unterschiedlichen Musikstile wie auch die Produktionstechniken der jeweiligen Jahrzehnte zu berücksichtigen. Nach einem 60s oder 70s Song soll das Element ja auch den Mood der vorherigen Produktion oder des darauf folgenden Musikstückes aufnehmen. Breites fundiertes Musikwissen ist schon ein extremer Vorteil, um die KI in die Richtung zu bringen, wo man stilistisch hin will. Ansonsten erhält man viele Kompositionen, die nicht die Kriterien erfüllen. Zu jeder Zeit habe ich das Ergebnis geprüft und entschieden, ob das Ergebnis die Anforderungen erfüllt oder nicht.

Wie wurde die Qualität der KI-generierten Jingles überwacht und sichergestellt? Gab es eine Phase der menschlichen Überprüfung oder Bearbeitung?

Am Ende muss natürlich jemand da sitzen, der den ganzen Output musikalisch auf Basis der Anforderungen bewertet. Wie fügen sich die Sounds ins Repertoire des Formats ein? Wurden gewisse Stilistiken abgebildet? Stimmt die Audioqualität? Sind genügend musikalische wie auch vokale Bits vorhanden, aus denen zusammen ein Jingle erstellt werden kann? Ohne Mensch geht es nicht. Es muss ein Qualitätsmanagement durch jemanden stattfinden. Man darf nicht vergessen, dass diese Portale aktuell für Musikproduktionen ausgelegt sind, nicht für Special-Interests wie Radioproduktionen. Da die Soundqualität noch nicht den Hi-Fi-Normen entspricht, rendert unser Soundprocessing noch fehlende Höhen und Bässe dazu, um einen besseren Klang zu erhalten.

Welche kulturellen und ethischen Überlegungen spielten bei der Entscheidung, KI für die Erstellung der Jingles zu verwenden, eine Rolle?

Um ehrlich zu sein, keine. Die Triebfeder war erstmal die Neugier und dann der Spaß an der Sache. Ich beurteile den technischen Fortschritt erstmal anhand folgender Kriterien:

Wie vereinfacht die Technologie meinen Workflow?
Wie trägt sie dazu bei, Prozesse zu beschleunigen oder erst zu ermöglichen?
Wie hilft sie, mein Projekt besser zu machen?

Danach stellt sich dann die kulturelle wie auch ethische Frage. Dazu kommen natürlich auch lizenzrechtliche Fragen, die auch der Gesetzgeber klären muss. Aktuell gehört jegliche bei Suno AI erstellt Musik Suno selbst. Da ist auch aufgrund der Klage der RIAA gegen Suno und Udio einiges in Bewegung. Das gilt es abzuwarten. Am Ende ist diese spezielle Technologie eine Revolution für kleine Radioprojekte, die niemals das Geld für ein eigenes Jingle-Paket aufbringen könnten. In diesem speziellen Fall ist die Nutzung von AI keine Vereinfachung der Arbeit, sondern der Erstellung. Ein finanzieller Aspekt. Der Aufwand bleibt.

Wenn mich jemand fragen würde, ob ich gekennzeichnete AI Musik bei Shake!FM spielen würde, dann hätten wir sicherlich eine andere Diskussion. Aktuell nutzen wir die Möglichkeiten, um unseren Sender immer besser und individueller gestalten zu können. Wir wollten unseren Traum erfüllen.

Wie siehst Du die Zukunft der Musikproduktion und -komposition mit der fortschreitenden Entwicklung von KI? Welche Rolle wird der Mensch Deiner Meinung nach weiterhin spielen?

Egal wie weit diese Technologie sich noch entwickeln wird, am Ende wird und muss ein menschliches Qualitätsmanagement stattfinden. Musikproduktion ist keine Einbahnstraße, sondern ein kreativer Prozess, auch wenn es in den letzten Jahren mehr eine Plastik-Pop Maschinerie der Tik-Tok Schnipsel geworden ist. Musikalische wie auch inhaltliche Kreationen stoßen auf subjektives Empfinden, was KI nicht bewerten kann, höchstens eingrenzen. Anhand eigener Produktionen habe ich bei Suno AI getestet, was die KI aus Demos macht. Um ehrlich zu sein, es kann für Musikproduzenten ein Hilfsmittel sein, um den kreativen Prozess anzustoßen oder weiterzuführen, wenn man gerade ins Stocken geraten ist. Für Produzenten, die nach neuen frischen Samples suchen, kann es eine neuer Pool werden, um dahingehend auch neue Musik zu kreieren, die mit “alt-klingenden” Bits und Sounds verfeinert wird.

Ich denke, wenn die Stems bei Suno für jedes Instrument und die Vocals komplett freigegeben werden und auch die Soundqualität endlich ein Hi-Fi Niveau erreicht, dann ist die komplette Spielwiese eröffnet. Mit der AI von Audimee kann man jetzt bereits schon gesungene Parts von anderen KI Stimmen singen lassen oder seine eigene KI Stimme trainieren. Da geschehen gerade auch viele Revolutionen. Das wäre z.B. der nächste Schritt für uns, unsere eigene AI Soul-Stimme dort anzulegen, zu trainieren, so dass man auch beim Gesang in den Jingles ein Wiedererkennungsmerkmal erlangt. Trotzdem: Wenn ich das Budget hätte, würde ich natürlich eine echte Sängerin oder einen Sänger buchen. Dieser Prozess der gemeinsamen Jam-Session ist unersetzbar für den Vibe.

Wie haben Eure Hörer:Innen auf die neuen KI-generierten Jingles reagiert? Gab es spezielle Rückmeldungen, die Dich besonders gefreut oder überrascht haben?

Es gab extrem positive Rückmeldungen aus unserem Team, denen ich das als Allererstes vorgestellt habe. Die zeigten die gleiche Reaktion wie ich anfangs bei den ersten Tests. Zuerst ist man extrem begeistert und beeindruckt. Nach 1-2 Tagen ist es aber auch beängstigend, was da schon in der Beta möglich ist. Da die Jingles vor meinem Urlaub on air gingen, gehen wir in der kommenden Woche in die Phase, in unserem Newsletter und auf unseren Social Media Accounts die Jingles vorzustellen.

Denkst Du, dass KI auch in anderen Bereichen Eures Senders eingesetzt werden könnte? Wenn ja, in welchen und wie?

Absolut!

Wir testen aktuell erste AI Plugins für unsere neue Homepage, um zu schauen, was da möglich ist. Wir werden vieles ausprobieren und online, wie aber auch on-air entscheiden, was nicht nur dem Workflow, sondern auch dem Image des Senders zuträglich ist und was nicht. Am Ende nutzen Menschen unsere Angebote, keine KI. Persönlichkeiten, gewisse Flows in Sprache und Programmierung müssen Menschen kontrollieren und auch erstellen, bzw. weiterhin definieren.

AI kann da ein großartiges Hilfsmittel sein, der Maschinenraum sollte aber von uns gesteuert werden.

Ein schönes Schlusswort lieber Michel. Vielen Dank für die umfangreichen Insights und weiterhin viel Erfolg mit Shake!FM. Und wer selbst einmal reinhören möchte, kann das hier tun:

Bleiben Sie auf ZAC!

Shake!FM · Shake!FM Jingles 2024 - www.shake.fm