RoEx Automix 在幕后是如何工作的

在这篇文章中,我们将深入解析我们的RoEx Automix技术,让你了解我们如何处理你的音频,从而在几分钟而不是几天内为你提供专业且平衡的混音效果。

用 AI 音乐混音与母带处理革新音频

音频混音领域充满复杂性。平衡多样化的声音组成是全球音频工程师共同面对的挑战。一个关键问题是“掩蔽(masking)”,即某个声源(例如底鼓)会因另一个更响的元素(如贝斯吉他)而变得难以听见。为了解决这一问题,工程师会采用多种技术和音频效果,打造和谐且平衡的混音,让每种声音都具有清晰的存在感。


精细调整音量电平、管理立体声定位(即“声像 panning”),以及应用均衡(EQ)来调制特定频率,都是关键步骤。动态范围压缩(DRC)这种用于控制声源响度的技术也同样至关重要。但试想一下,如果这一复杂流程可以自动化,减少人工干预并降低出错空间,会怎样?


欢迎来到 AI 音乐混音的世界,在这里人工智能扮演指挥家。用于音频混音与母带处理的 AI 系统可简化并增强混音流程,从而产出完美平衡的高质量音频。欢迎与我们一起深入了解由 AI 驱动的自动化音频混音与母带处理这一迷人领域,并探索音乐制作的未来。

我们的混音系统

Automix 是我们创新的 AI 音乐混音系统,它通过自动确定理想的音频效果参数,重新定义了音频混音。对于提交混音的任何多轨音频,它都能精确维持空间平衡、最小化掩蔽现象,并调控主观响度。

借助先进的音乐信息检索(MIR)技术,Automix会在受其他轨道/分轨影响的整体上下文中,全面分析每一条轨道或分轨。该分析阶段发生在“多轨分析模块(Multitrack Analysis Module)”中,如上图所示。在这里,我们会分析并提取大量多轨音频特征,其中一些可实时处理,为实时音频混音提供可能。


随后,从每条轨道/分轨提取的多轨特征会输入到一个理解既有混音工程规则的 AI 模型中。该模型会根据每条提交轨道/分轨的声音特征、它们之间的相互作用以及音乐风格,判断最合适的音量、EQ、DRC、声像和混响设置。因此,Automix 展现出对单独分轨和完整多轨进行高效混音的出色能力。


当模型最终确定最佳多轨音频设置后,这些设置——EQ、DRC、声像和响度——会应用到每条轨道/分轨上。随后,多轨音频会被合并并进行峰值归一化至 -3dBFs,以预留母带处理所需的余量(headroom)。


此外,我们还开发了一个基于类似技术的母带处理模块,虽然其使用是可选的。该模块会结合混音后的音频和用户的响度偏好,应用我们的 AI 母带处理信号链。最终产出为 wave、FLAC 或 mp3 文件,经过全面优化,可直接分发到SpotifySoundcloudBandcamp等平台。

介绍我们的 API:Tonn —— 驱动 AI 音乐混音与母带处理

我们将突破性的 Automix 技术部署在强大的 Google Cloud Platform(GCP)上,作为Tonn API的一部分。它以可扩展的容器化应用形式运行,能够根据任意时刻所需的混音数量进行调整。这种灵活性使我们能够高效扩容以匹配不断增长的需求并满足客户的独特需求。此外,它还使任何外部应用都能同时发起多个混音任务,显著加速大型多轨项目的混音流程。

我们用一个实际示例来说明:设想一个包含 40 条轨道的多轨工程——10 条吉他轨、10 条鼓轨、10 条弦乐轨和 10 条合成器轨。借助我们的 Tonn API,用户可以为每个乐器组创建并行运行的混音任务。当吉他、鼓、弦乐和合成器的独立混音完成后,用户即可基于这些混音汇总出最终混音和母带成品,如上图所示。


我们目前基于Tonn API的基准测试显示,RoEx Automix 技术可以在约 4.5 分钟内完成 8 条、每条 3 分钟(典型流行歌曲时长)音轨的混音。我们仍在持续提升这一性能。如果你有兴趣亲自体验 Tonn API 的强大能力,请联系我们获取 API key。你可以在这里查看 Tonn API 文档。

RoEx Realtime Mix:面向实时应用的 AI 音乐混音

基于 Automix 背后的变革性技术,我们目前正在开发 RoEx Realtime Mix——一套旨在应对实时音频挑战的系统。它能够同时处理多个音频通道、分析每个通道并实时应用音频效果,以减少掩蔽并提升听觉清晰度。


它非常适用于直播、电子游戏或 VR 等应用场景,在这些场景中,多个声源会随时间动态交互。RoEx Realtime Mix 能够适应并响应不断变化的刺激。例如,在电子游戏中如果主角正在说话,系统会自动突出其语音,同时对其他声音进行轻微过滤,以尽量减少掩蔽。

结论:AI 音乐混音推动音乐制作的未来

传统音乐制作或“混音”是一个劳动密集型过程,所需技能与音乐创作本身并不相同。该过程通常涉及大量声源,而这些声源往往生成于不同环境并具有不同特性;其目标是让每个声源都能被清晰听见,共同构成和谐且清脆的声音融合。实现这种平衡并不容易,通常需要专业音频工程师的技能。

然而,Automix 这类自动化音乐制作工具的出现正在改变这一格局。通过利用 AI 音乐混音的力量,这些工具能够处理音乐制作中的复杂环节,使音乐人比起自行完成混音与母带处理或外包给专业服务,更快速、更轻松、也更具成本效益地将作品交付给目标受众。

这项技术降低了音乐行业的准入门槛,使缺乏技术背景的人也更容易走上音乐职业道路。随着我们不断前进,像 RoEx Automix 这样的 AI 混音与母带处理系统有望推动音乐制作民主化,为全球艺术家打开新的创意表达之门。