RoEx Automixはどのように機能しているのか

この投稿では、当社のRoEx Automix技術の内部をのぞき、あなたのオーディオをどのように処理して、数日ではなく数分でプロフェッショナルかつバランスの取れたミックスをお返ししているのかをご紹介します。

AIによる音楽ミキシングとマスタリングでオーディオを革新

オーディオミキシングの分野には多くの複雑さがあります。多様な音の要素のバランスを取ることは、世界中のサウンドエンジニアが直面する課題です。主要な問題の一つが「マスキング」で、たとえばキックドラムのような音源が、ベースギターのようなより大きな要素によって聞こえなくなる現象です。これに対処するため、エンジニアはさまざまな手法やオーディオエフェクトを用いて、各サウンドが固有の存在感を持つ調和の取れたバランスの良いミックスを作り上げます。


音量レベルの微調整、ステレオ定位(「パンニング」)の管理、特定の周波数を調整するイコライゼーション(EQ)の適用は重要な工程です。音源のラウドネスを制御するための手法であるダイナミックレンジコンプレッション(DRC)も大きな役割を果たします。しかし、この複雑なプロセスが自動化され、手作業の介入をなくし、ミスの余地を減らせるとしたらどうでしょうか。


ようこそ、AIミュージックミキシングの世界へ。ここでは人工知能が指揮者の役割を担います。オーディオのミキシングおよびマスタリングシステムにおけるAIは、ミキシング工程を効率化・高度化し、完璧にバランスの取れた高品質なオーディオを実現します。AIが支える自動オーディオミキシングとマスタリングの魅力的な領域を一緒に掘り下げ、音楽制作の未来を探っていきましょう。

当社のミキシングシステム

当社の革新的なAI音楽ミキシングシステムであるAutomixは、最適なオーディオエフェクト設定を決定する複雑なプロセスを自動化することで、オーディオミキシングを再定義します。ミキシングに提出されたあらゆるマルチトラック音源に対して、空間的バランスを綿密に維持し、マスキングを最小化し、知覚ラウドネスを調整します。

高度な音楽情報検索(MIR)技術を活用し、Automixは各トラックまたはステムを、それに影響する他のすべてのトラック/ステムの文脈の中で徹底的に分析します。この分析段階は、上図に示す「Multitrack Analysis Module」で行われます。ここでは多数のマルチトラックオーディオ特徴量を分析・抽出しており、その一部はリアルタイム処理が可能で、リアルタイムオーディオミキシングの可能性を提供します。


各トラック/ステムから抽出されたマルチトラック特徴量は、確立されたミックスエンジニアリングのルールを理解するAIモデルに入力されます。このモデルは、提出された各トラック/ステムの音響特性、それらの相互作用、そして音楽スタイルに基づいて、音量、EQ、DRC、パンニング、リバーブの最適な設定を見極めます。その結果、Automix は個々のステムおよび完全なマルチトラックを効果的にミックスする高い能力を発揮します。


モデルが最適なマルチトラックオーディオ設定を最終決定すると、これらの設定(EQ、DRC、パンニング、ラウドネス)が各トラック/ステムに適用されます。その後、マルチトラックオーディオを結合し、マスタリングに必要なヘッドルームを確保するために-3dBFsへピーク正規化します。


さらに、同様の技術に基づくマスタリングモジュールも開発しましたが、その利用は任意です。このモジュールは、ミックス済みオーディオとユーザーのラウドネス設定を考慮して、当社のAIマスタリング信号チェーンを適用します。最終成果物は、wave、FLAC、またはmp3ファイルとして出力され、SpotifySoundcloud、またはBandcampのようなプラットフォームで配信できるよう完全に最適化されています。

APIのご紹介:AI音楽ミキシングとマスタリングを支えるTonn

当社は画期的なAutomix技術を、Tonn APIの一部として堅牢なGoogle Cloud Platform(GCP)上で運用しています。これはスケーラブルなコンテナ化アプリケーションとして動作し、任意の時点で必要なミックス数に応じて調整可能です。この柔軟性により、増加する需要に効率よくスケールしてお客様固有のニーズに応えることができます。さらに、外部アプリケーションから複数のミックスタスクを同時に開始できるため、大規模マルチトラックプロジェクトのミキシングを大幅に高速化できます。

実例で説明しましょう。40トラックで構成されたマルチトラック(ギタートラック10、ドラムトラック10、ストリングストラック10、シンセトラック10)を想像してください。Tonn APIを使えば、ユーザーは各楽器グループごとにミックスタスクを作成し、並行実行できます。個別のギター、ドラム、ストリング、シンセのミックス完了後、上図のように、それらのミックスから最終ミックスおよびマスタリング済みトラックを作成できます。


Tonn APIを用いた現在のベンチマークでは、当社のRoEx Automix技術が、各3分(一般的なポップソングの長さ)の8トラックを約4.5分でミックスできることを示しています。私たちはこの性能のさらなる向上に継続的に取り組んでいます。Tonn APIの力を実際に体験したい方は、ぜひAPIキー取得のためにお問い合わせください。Tonn APIのドキュメントはこちらでご覧いただけます。

RoEx Realtime Mix:リアルタイム用途向けAI音楽ミキシング

Automixの変革的技術を基盤として、現在私たちはRoEx Realtime Mixを開発中です。これはリアルタイムオーディオの課題に対応するために設計されたシステムです。複数のオーディオチャンネルを同時に処理し、各チャンネルを分析し、進行中にオーディオエフェクトを適用して、マスキングを減らし聴覚的明瞭さを高めることを目指しています。


時間とともに複数の音源が動的に相互作用するライブ配信、ビデオゲーム、VRのようなアプリケーションに最適です。RoEx Realtime Mixは変化する刺激に適応し応答できます。たとえばビデオゲームで主人公が話している場合、システムはその音声を自動的に強調しつつ、他の音をさりげなくフィルタリングしてマスキングを最小化します。

結論:AI音楽ミキシングが切り拓く音楽制作の未来

従来の音楽制作、すなわち「ミキシング」は、音楽制作そのものとは異なるスキルセットを必要とする労働集約的なプロセスです。通常は多数の音源を扱い、それぞれが異なる環境で生成され固有の特性を持つ中で、各音源を明瞭に聞こえるようにし、調和が取れてクリアなサウンドブレンドへ寄与させることが目的です。このバランスの達成は難しく、一般的にプロのサウンドエンジニアの技能を要します。

しかし、Automixのような自動化音楽制作ツールの登場は、この状況を変えつつあります。AI音楽ミキシングの力を活用することで、これらのツールは音楽制作の複雑な側面に対応し、ミュージシャンが自らミキシング/マスタリングを行う場合やプロサービスに外注する場合よりも、より迅速・容易・低コストで意図するオーディエンスへコンテンツを届けられるようにします。

この技術は音楽業界への参入障壁を下げ、技術的背景を持たない人々にとっても音楽のキャリアをより身近なものにします。今後、RoEx AutomixのようなAI音楽ミキシングおよびマスタリングシステムは音楽制作を民主化し、世界中のアーティストに新たな創造表現の扉を開くことを約束します。