Wie RoEx Automix im Hintergrund funktioniert

In diesem Beitrag werfen wir einen Blick hinter die Kulissen unserer RoEx Automix-Technologie, um Ihnen eine Vorstellung davon zu geben, wie wir Ihr Audio bearbeiten, damit Sie in Minuten statt in Tagen einen professionellen und ausgewogen klingenden Mix zurückbekommen.

Revolutionierung von Audio mit KI-Musikmischung und -Mastering

Der Bereich des Audio-Mixings ist voller Komplexität. Das Ausbalancieren unterschiedlicher Klangkomponenten ist eine Herausforderung, der sich Tontechniker weltweit stellen. Ein zentrales Problem ist „Maskierung“, ein Phänomen, bei dem eine Klangquelle, etwa eine Kickdrum, durch ein lauteres Element wie einen Bass unhörbar wird. Um dies zu bewältigen, setzen Ingenieure verschiedene Techniken und Audioeffekte ein und schaffen so einen harmonischen und ausgewogenen Mix, in dem jeder Klang seine eigene, deutliche Präsenz hat.


Die Feinabstimmung der Lautstärkepegel, das Verwalten der Stereopositionierung oder des „Pannings“ sowie das Anwenden von Equalization (EQ) zur Modulation bestimmter Frequenzen sind entscheidende Schritte. Auch die Dynamikbereichskompression (DRC), eine Technik zur Kontrolle der Lautheit von Klangquellen, spielt eine bedeutende Rolle. Doch stellen Sie sich vor, dieser komplexe Prozess könnte automatisiert werden, wodurch manuelle Eingriffe entfallen und weniger Raum für Fehler bleibt.


Willkommen in der Welt des KI-Musikmixings, in der künstliche Intelligenz den Taktstock führt. KI in Audio-Mixing- und Mastering-Systemen verschlankt und verbessert den Mischprozess und führt zu perfekt ausbalanciertem, hochwertigem Audio. Begleiten Sie uns, wenn wir in den faszinierenden Bereich des KI-gestützten automatisierten Audio-Mixings und Masterings eintauchen und die Zukunft der Musikproduktion erkunden.

Unser Mixing-System

Automix, unser innovatives KI-Musikmixing-System, definiert Audio-Mixing neu, indem es den komplexen Prozess der Bestimmung perfekter Audioeffekt-Einstellungen automatisiert. Es wahrt sorgfältig die räumliche Balance, minimiert Maskierung und reguliert die wahrgenommene Lautheit über jedes zum Mischen eingereichte Multitrack-Audio hinweg.

Unter Nutzung fortschrittlicher Techniken zur Musik-Informationsgewinnung (MIR) analysiert Automix jede Spur bzw. jeden Stem gründlich im Kontext aller anderen einflussnehmenden Spuren/Stems. Diese Analysephase findet im „Multitrack Analysis Module“ statt, wie in der obigen Abbildung dargestellt. Hier analysieren und extrahieren wir eine Vielzahl von Multitrack-Audio-Merkmalen, von denen einige in Echtzeit verarbeitet werden können, was das Potenzial für Echtzeit-Audio-Mixing bietet.


Die aus jeder Spur/jedem Stem extrahierten Multitrack-Merkmale werden anschließend in ein KI-Modell eingespeist, das etablierte Regeln der Mixtechnik versteht. Dieses Modell ermittelt die am besten geeigneten Einstellungen für Lautstärke, EQ, DRC, Panning und Reverb auf Grundlage der klanglichen Eigenschaften jeder eingereichten Spur/jedes Stems, ihres Zusammenspiels und des Musikstils. Folglich weist Automix eine ausgeprägte Fähigkeit auf, einzelne Stems und vollständige Multitracks effektiv zu mischen.


Nachdem das Modell die besten Multitrack-Audioeinstellungen endgültig bestimmt hat, werden diese Einstellungen – EQ, DRC, Panning und Lautheit – auf jede Spur/jeden Stem angewendet. Das Multitrack-Audio wird dann zusammengeführt und auf -3dBFs pegelnormalisiert, um den erforderlichen Headroom für das Mastering zu reservieren.


Zusätzlich haben wir ein auf ähnlicher Technologie basierendes Mastering-Modul entwickelt, dessen Nutzung jedoch optional ist. Dieses Modul berücksichtigt das gemischte Audio und die Lautheitspräferenz des Nutzers, um unsere KI-Mastering-Signalkette anzuwenden. Das Endprodukt ist eine Wave-, FLAC- oder mp3-Datei, vollständig optimiert und bereit für die Distribution auf Plattformen wie Spotify, Soundcloud oder Bandcamp.

Einführung unserer API: Tonn – die Kraft hinter KI-Musikmixing und -Mastering

Wir hosten unsere bahnbrechende Automix-Technologie auf der leistungsstarken Google Cloud Platform (GCP) als Teil unserer Tonn API. Sie arbeitet als skalierbare, containerisierte Anwendung, die sich an die jeweils benötigte Anzahl an Mixes anpassen kann. Diese Flexibilität ermöglicht es uns, effizient zu skalieren, um einer steigenden Nachfrage gerecht zu werden und die individuellen Bedürfnisse unserer Kunden zu erfüllen. Darüber hinaus ermöglicht sie jeder externen Anwendung, mehrere Mix-Aufgaben gleichzeitig zu starten, wodurch der Mischprozess großer Multitrack-Projekte erheblich beschleunigt wird.

Nehmen wir ein praktisches Beispiel zur Veranschaulichung: Stellen Sie sich einen Multitrack mit 40 Spuren vor – 10 Gitarrenspuren, 10 Drumspuren, 10 Streicher-Spuren und 10 Synth-Spuren. Mit unserer Tonn API können Nutzer für jede Instrumentengruppe eine Mix-Aufgabe erstellen, die parallel ausgeführt wird. Nachdem die einzelnen Gitarren-, Drum-, Streicher- und Synth-Mixes abgeschlossen sind, können Nutzer daraus einen finalen Mix und einen gemasterten Track zusammenstellen, wie in der obigen Abbildung dargestellt.


Unser aktueller Benchmark unter Verwendung der Tonn API zeigt, dass unsere RoEx-Automix-Technologie acht jeweils drei Minuten lange Spuren (typische Popsong-Dauer) in etwa 4,5 Minuten mischen kann. Wir arbeiten kontinuierlich daran, diese Leistung weiter zu verbessern. Wenn Sie die Leistungsfähigkeit der Tonn API aus erster Hand erleben möchten, kontaktieren Sie uns bitte für einen API-Schlüssel. Die Tonn-API-Dokumentation finden Sie hier.

RoEx Realtime Mix: KI-Musikmixing für Echtzeitanwendungen

Aufbauend auf der transformativen Technologie hinter Automix entwickeln wir derzeit RoEx Realtime Mix – ein System, das für Echtzeit-Audioherausforderungen konzipiert ist. Es ist dafür ausgestattet, mehrere Audiokanäle gleichzeitig zu verarbeiten, jeden Kanal zu analysieren und Audioeffekte in Echtzeit anzuwenden, mit dem Ziel, Maskierung zu reduzieren und die Hörklarheit zu erhöhen.


Ideal für Anwendungen wie Live-Übertragungen, Videospiele oder VR, in denen mehrere Klangquellen im Zeitverlauf dynamisch interagieren, kann sich RoEx Realtime Mix an veränderte Reize anpassen und darauf reagieren. Wenn beispielsweise die Hauptfigur in einem Videospiel spricht, würde das System ihre Sprache automatisch hervorheben und gleichzeitig andere Geräusche dezent herausfiltern, um Maskierung zu minimieren.

Fazit: Die Zukunft der Musikproduktion mit KI-Musikmixing

Traditionelle Musikproduktion oder „Mixing“ ist ein arbeitsintensiver Prozess, der andere Fähigkeiten erfordert als die Musikkomposition. Da typischerweise zahlreiche Klangquellen beteiligt sind, die jeweils in einer einzigartigen Umgebung und mit unterschiedlichen Eigenschaften erzeugt werden, besteht das Ziel darin, jede Quelle klar hörbar zu machen und so zu einer harmonischen und präzisen Klangmischung beizutragen. Dieses Gleichgewicht zu erreichen ist herausfordernd und erfordert in der Regel die Fähigkeiten eines professionellen Tontechnikers.

Die Einführung automatisierter Musikproduktionstools wie Automix verändert diese Landschaft jedoch grundlegend. Durch die Nutzung der Leistungsfähigkeit von KI-Musikmixing bewältigen diese Tools die komplexen Aspekte der Musikproduktion und ermöglichen es Musikern, ihre Inhalte schneller, einfacher und kosteneffizienter an ihre Zielgruppe zu liefern, als wenn sie Mixing und Mastering selbst übernehmen oder an professionelle Dienstleister auslagern würden.

Diese Technologie senkt die Eintrittsbarrieren in der Musikindustrie und macht eine Karriere in der Musik für Menschen ohne technischen Hintergrund zugänglicher. Auf unserem weiteren Weg versprechen KI-Musikmixing- und Mastering-Systeme wie RoEx Automix, die Musikproduktion zu demokratisieren und Künstlern auf der ganzen Welt neue Türen für kreativen Ausdruck zu öffnen.