Musik-KI revolutioniert Suche: Texteingabe als Schlüssel zum perfekten Song im Jahr 2023

2023, das Jahr der Musik-KI: Text-to-Audio und per Textsuche zum perfekten Song

Ein Mannheimer DeepTech-Start-up namens Cyanite hat eine innovative Suchmaschine entwickelt, die mithilfe von freier Textsuche Musik in verschiedenen Bibliotheken und Katalogen aufspüren kann. Die Anfrage erfolgt in natürlicher Sprache, ähnlich wie bei anderen KI-Programmen wie Stable Diffusion, Midjourney oder DALL·E. Im Gegensatz zu herkömmlichen Recommendation Engines ist die Technologie sogar in der Lage, basierend auf längeren Texteingaben passende Musikstücke vorzuschlagen. Im Jahr 2023 könnte diese Musik-KI somit die Suche nach dem perfekten Song revolutionieren.



So lassen sich kurze Szenen beschreiben, Musik-Briefings hochladen oder Ideen für ein Musikstück eintippen. Cyanite erstellt dazu über API-Zugriff eine Liste passender Titel. Anfragen können unterschiedlich gestrickt sein, die Eingabesprache ist Englisch: "A sunny day in the forest" ist genauso möglich wie eine komplexere szenische Beschreibung, die Musik für einen Filmclip aufspüren soll: "A busy city in North America, crowded with people in a dark mood, surrounded by wilderness and decay, pre-apocalyptic setting, and the sea will soon claim it".



Mit freier Textsuche Musikdatenbanken durchforsten


Mit diesem Testprompt hat die Redaktion ad hoc Spotify-Vorschläge erhalten, die der beschriebenen Stimmung teils gut entsprechen. Die Liste macht neben dem Dateinamen Angaben zum Rhythmus, zur Tonart und zum Genre sowie (bei Gesang) zum Stimmprofil. Passend zur melancholischen Stimmung des Textprompts sind die meisten Vorschläge in Moll gehalten. Public Memory, "Afterlife" und Juju & Jordash, "Quasi" klangen besonders passend ? Stücke von Gruppen und aus einem Genre (Electro Dance), die der Verfasserin nicht vertraut waren. Auf eigene Faust hätte sie sie wohl nicht aufgespürt.



Musikindustrie: "Finde diesen einen, perfekten Song"


"Finde diesen einen perfekten Song" sei in den letzten Jahren ein eigener Geschäftsbereich geworden (B2B), ergänzte Schwarzer. Nach typischen Einsatzzwecken gefragt, nannte er die Spieleentwicklung, Stock Music (das Äquivalent zu Stock Images), die Film- und Fernsehbranche sowie Werbung und Branding. Selbst spricht er von einer "Musik-Intelligenz", die die Musik dieser Welt "verstehe und empfehle". In etwas schlichteren Worten ist die Suchmaschine von Cyanite ein Programm zum Auffinden von Titeln aus großen Katalogen wie Spotify oder eigenen Musikarchiven sowie Datenbanken. Cyanite erstellt zur Texteingabe passende Titellisten aus diesem Fundus.



Erinnert das nicht an Pandora? Nur auf den ersten Blick: Bei den Empfehlungsalgorithmen gebe es Parallelen, erklärte der Cyanite-CEO Markus Schwarzer auf Nachfrage. Die US-amerikanische Plattform für Musikempfehlungen hingegen ist ein Streaming- und Empfehlungsdienst mit Fokus auf Endkunden (B2C), einer eigenen streambaren Musikdatenbank ? und aus Lizenzgründen ist Pandora in Europa zurzeit nicht verfügbar. Cyanite bietet keinen Streamingkatalog, sondern die Technik soll User der Suchmaschine in die Lage versetzen, ihre eigenen großen Bibliotheken und Kataloge rasch zu durchforsten. Das Aufspüren passender Musiktitel für eine bestimmte Stimmung, einen Anlass, zur Untermalung eines Videos oder Kinotrailers soll dabei nicht von musikalischem Fachwissen abhängen, sondern vom Ausformulieren des Szenarios. Die Schnittstelle ist natürliche Sprache.



Labels, Lizenzen, Verlage: große Musikkataloge erschließen


Technisch liegt der Suchmaschine ein Transformermodell zugrunde, eine ähnliche Architektur kommt auch bei Tools wie den KI-Bildgeneratoren oder ChatGPT zum Einsatz. Cyanite hat die verwendeten Transformermodelle mit komplexen Musikbeschreibungen wie Musikrezensionen trainiert und dem KI-System beigebracht, für jegliche Art von Text dazu passende Musik vorzuschlagen. Neu daran ist, dass die Software freien Text statt fester Klassen beherrscht und semantische Beziehungen innerhalb des Textes versteht sowie der Musik zuordnen kann. Im Backend hat man die Wahl zwischen drei Suchmodi: freier Texteingabe, Ähnlichkeitssuche oder einer Suche nach Stichwörtern.



Die Mannheimer haben nach eigenen Angaben damit weniger Privatleute im Blick, sondern sprechen vor allem die Musik- und Unterhaltungsindustrie an (B2B), die damit ihre Kunden mit Musikvorschlägen und Playlists für Projekte bedienen können: Große Musikfirmen verfügen am ehesten über ein riesiges Repertoire und umfangreiche Archive, die sich mit der KI-gestützten Suche erschließen lassen. Auf Nachfrage nannte Markus Schwarzer einige Referenzkunden: Musikverlage und -labels wie BMG, Schubert Music, Brilliant Classics aus den Niederlanden, Nettwerk Music Group aus Kanada, Musikmarktplätze in den USA und in Großbritannien sowie einige Musik-Branding-Anbieter, die teils die Free Text Search direkt in ihr Portfolio einbinden.



Cyanite: die drei Suchalgorithmen testen


Ob Cyanite das bessere Pandora ist, kann die Redaktion mangels Wohnsitz in den USA zurzeit nicht einschätzen ? zumindest ist es verfügbar. Cyanite ist zurzeit zwar ebenfalls vor allem im angloamerikanischen Raum vertreten, länderbezogenen Einschränkungen unterliegt der Dienst jedoch nicht. Die musikaffine Nutzerschaft erschließt damit ja eigene Bibliotheken ? und Musikverlage gärtnern damit ohnedies in den eigenen, nichtöffentlichen Archiven. Wer mag, kann die Free Text Search mit einer Spotify-Datenbank in der Web-App des Anbieters auf der Cyanite-Website ausprobieren ? dafür ist es nötig, sich zu registrieren (da es kein Double-Opt-in gibt, muss man persönliche Daten nicht zwingend preisgeben, wie wir getestet haben). Interessierte können ihre Musik dort umfangreich taggen, mit Metadaten versehen, eine KI-basierte Volltextbeschreibung erstellen und zwischen drei Suchalgorithmen wählen. Fünf Analysen pro Monat sind gratis laut Anbieter.



Prognose 2023: Musik- und Audio-KI auf der Überholspur


Die Entwicklung von Musik-KI ist darüber hinaus dieses Jahr ausgesprochen dynamisch: Auf ein Jahr der Text- und Bild-Synthese folgt ein Durchbruch von Audio-KI-Projekten. Text-to-Tunes und Text-zu-Audio sind im Kommen, das Erstellen kreativer Inhalte mit Textvorgaben ist von Kunst- oder Textautomaten (ChatGPT, Claude, Lumi, ...) bereits vertraut. Nach Neuerungen wie Googles AudioLM und MusicLM (einer Art "DALL·E für Songs") sowie Make-an-Audio des chinesischen TikTok-Anbieters ByteDance ist die technische Entwicklung offenbar so weit, dass KI-Systeme nun mit Textvorgaben Klänge, Audiomaterial, aber zunehmend auch Musik erstellen oder menschliche Stimmen nachahmen können (Text-to-Speech, beispielsweise mit VALL·E).



Bereits 2021 war in China SingGAN erschienen, eine KI-Methode zum Generieren von Singstimmen. Mittlerweile gibt es erste Radiosender und Podcasts, die mit Stimmsynthese arbeiten (eine Heise-Kollegin hat für "Kurz informiert" ihre Stimme klonen lassen). Erste Demos werden teils intensiv genutzt und die Systeme weiter verfeinert. Der Output wirkt derweil oft noch etwas beliebig und wenig steuerbar. All diese Neuerungen könnten in Konkurrenz stehen zum lizenzbasierten Kerngeschäft der Musikindustrie, aber auch Umbruch bewirken im gesamten Musikschaffen.



Audio AI Timeline


Auf GitHub hat der Schweizer Entwickler Flavio Schneider ein Repository mit einer Timeline zu KI-Musikprojekten angelegt (Audio AI Timeline), zum Dokumentieren von Neuerscheinungen. Schneider ist auch selbst in der Musik-KI-Forschung aktiv und veröffentlichte Ende Januar 2023 Moûsai, ein Modell zum Generieren von Musik aus Textvorgaben mit ausführlichem Kontext (wie der KI-Bildgenerator Stable Diffusion basiert es auf latenter Diffusion). Wer sich für Musik und KI interessiert, kann sich in der Audio AI Timeline auf dem Laufenden halten und den Maintainer auf eigene Projekte hinweisen.






Kommentare


Anzeige