音乐工作室中的人工智能:与Rich Keller和David Ronan的对话

房间里最聪明的人

音乐工作室中的人工智能:与Rich Keller和David Ronan的对话

由Tom Truitt主持,Turnkey ZRG

当一位获得格莱美奖的嘻哈音响工程师,拥有30年的高级录音室经验,与一家领先的辅助人工智能音乐公司的首席执行官坐下来时,会发生什么?你将得到一场关于人工智能在音乐制作中角色的诚实对话。

RoEx的首席执行官David Ronan在Tom Truitt的“房间里最聪明的人”播客中与Rich Keller一起讨论了辅助人工智能、RoEx技术的起源、空间音频、生成性人工智能时代的版权,以及为什么他们两人都不会放弃音乐……即使他们赢得了彩票。

这是视频:

这是来自此播客的逐字稿:

Tom: 欢迎来到房间里最聪明的人。我们很高兴你在这里,只要你出现,就已经在展示你自己的聪明才智。今天,我很高兴介绍两位非常成功的音乐高管,他们的工作主要发生在战斗前线,也就是录音室。我们将深入探讨人工智能如何影响他们的业务,并更多了解他们现在及未来的情况。我保证你将比到这里时更聪明,更开悟。

Tom: 在我们开始之前,请让我处理一些事务。首先,观众们,请随意在聊天窗口中介绍自己。我们举办这些网络研讨会有两个原因。首先,我们想展示真正聪明的人以及他们在音乐行业中的日常惊人工作。但第二个原因更复杂。你们中的许多人知道,我是音乐行业的猎头。我在Turnkey ZRG管理音乐业务,并在整个行业中为音乐高管寻找职位。因此,在定义和功能上,我帮助人们与公司建立联系。在这个系列中,我的目标是帮助你建立更多的联系,我邀请你充分利用这个机会。

Tom: 特别是,我邀请你与在Zoom中的演讲者和其他与会者互动。请介绍自己,分享你的LinkedIn个人资料,向朋友们打招呼,结识新朋友,并向我们的演讲者提问。此外,这非常重要。请确保你的聊天设置为“对所有人”,而不仅仅是主持人和演讲者。

Tom: 我想感谢我们的项目赞助商,若没有他们的支持,我们无法维持免费举办。特别感谢MedJet、Turnkey ZRG、田纳西娱乐委员会、田纳西酿酒厂和比酒更好的选择。

Tom: 那么,让我们开始谈正事。今天,我们欢迎Rich Keller。他是一位技术娴熟且经验丰富的音频工程师,以其能够充分发挥艺术家的表现力而闻名。凭借对录音和混音技术方面的深刻理解,Rich能够创造出经过打磨和专业加工的声音,帮助音乐提升到一个新的水平。他与众多成功的说唱和嘻哈艺术家合作过,包括DMX、Swizz Beatz、De La Soul、Nipsey Hussle、Nas、Miles Davis、Alicia Keys、Lil Wayne、Mariah Carey、Method Man、Jadakiss、The LOX、Snoop Dogg、Chris Brown、Rick Ross、Ja Rule等人。哇,那确实是一个名人堂的组合,Rich。真不可思议。

Tom: Rich的职业生涯跨越了自1992年以来的嘻哈音乐,为他赢得了官方OG地位。欢迎,Rich。很高兴今天你在这里。

Rich: 嘿,Tom。你好吗?感谢你的邀请,伙计。

Tom: 太好了。

Rich: 光听这个名单就让我觉得累。

Tom: 同时加入的是David Ronan。他是RoEx的创始人兼首席执行官,这是一家开创性的音乐技术公司,正在通过人工智能驱动的混音和母带处理解决方案重塑创意行业。他的使命是使音频制作民主化,使专业质量的音频能够为各个级别的创作者所用。作为人工智能音乐技术的领军人物,David曾担任AI Music的研发负责人,领导开发了无限音乐(Infinite Music)这一适应性人工智能音乐生成系统,生产出跨越各种风格的数百万首曲目。这项创新助力AI Music在2022年被苹果收购。David拥有伦敦玛丽女王大学电子工程与计算机科学的博士学位,他的研究重点是智能音频制作工具,包括全自动多轨混音系统。他的专业知识涵盖数字信号处理、机器学习和软件工程,之前曾在Native Instruments、诺斯罗普·格鲁曼等公司工作。我很高兴欢迎这两位摇滚明星今天来到我们的平台。开始吧,伙计们。

David: 很好,感谢你的邀请,Tom。

Rich: 是的。

David: 干杯。好吧,Rich。你好吗?

Rich: 我很好。已经有一段时间没见面了,David,见到你真好。是的,我们实际上有一段时间没有交谈了。所以,见面总是很不错。

David: 确实。是的。我想我们可以讨论一下我们是如何相识的。你想先说说这个吗?

Rich: 是的。你知道,我觉得这完全是我这边的事。但在我说到这些之前,你知道,我必须说,拥有一个像“房间里最聪明的人”这样的头衔并且像你这样介绍我这是没有压力的,我就像,“等等,我只是混音嘻哈,做音乐。”你有这个长长的名单……所以,无论如何,我会尽量……我越长大,越知道我不知道的事情。因此,变得越来越难以聪明,你知道的。

Rich: 但无论如何,抛开这些,我已经混音超过30年,为嘻哈录音,在Def Jam和索尼、环球等大公司工作。通过这些,我总是与技术一起进化,我总是参与下一个事情。你知道,我一开始在纽约专业演奏贝斯,然后我转向编程合成器,当DX7出现时与大型模拟合成器一起。然后是Digidesign,现在是Avid,对吧——当时只是立体声编辑器。

Rich: 那是1992年,我的朋友Adam正在使用它来去除嘻哈歌曲中的脏话,那是我第一次接触数字。然后我们通过他获得了第一张专辑的混音机会,我们使用DBX Type 1同步一个1英寸16轨的录音,再次是新技术。我们有一台Mac SE运行Vision,通过1英寸同步,并通过一个自动化的控制台——又是一项更高的技术。因此,在我整个职业生涯的每一步中,这只是它的开始。我可以一直说到现在。我是说,那是'92年。我可以带你参观一下音频技术的发展历史。

Rich: 但让我们从那时起快进到几年前。我开始——我想大约在2020年、2021年左右。当苹果推出空间音频时,我能够参与许多项目,因为那是它最初向公众推出时。很快,我们发现我们需要一些工具来分离音频——如果没有多轨,那你要怎么……所以无论如何,这就是我跳了进来,并说,嘿,让我们查看所有这些平台。起初只有几种能做到那点——能够分离乐段或任何音乐的部分,去除混响或其他东西。基本上用人工智能操纵声音。而这就是我第一次接触人工智能。

Rich: 然后我理解到——一旦我看到它变得越来越好——我意识到,哇,我为何不能……然后大语言模型破灭,我看到GPT 3.0时,我真是震惊。

David: 是的,是的,是的。

Rich: 分水岭时刻。

David: 我想,整个世界都感到,“这到底发生了什么?”

Rich: 简单来说,所以这个想法,那就是我第一次接触人工智能。这就是最终把我带到David的原因,因为我想要创造——我想让一个AI成为我。我想训练它,培养这个宝宝,让它形成我混音的秘密调味料。通过我正在做的一个项目——De La Soul为Reservoir Media做的项目——那些家伙显然在乐队里……

Rich: 我曾与AudioShake的首席执行官Jessica合作,她是个很棒的人。

David: 是的,她不是吗?她真聪明。是的。她太棒了。

Rich: 是的,她非常真诚,非常乐于助人,她有一个很好的产品。所以,我问她是否想参与并建立这样的东西。她说:“你知道吗?我有适合你的人。”

David: 是的。

Rich: David,这是David的专业。他对此非常在行。因此,给你们,玩吧。这就是我们见面的过程。

David: 是的,我记得,因为我们是在纽约的AES展会上亲自见面的,我们去了Flux Studios,Fab的地方,基本上。我们只是呆了一会。

Rich: 是的。那也是我们做的真正工作。

David: 是的。我们基本上讨论了如何合作,以及如何构建一个能够模拟你所做的工作的系统,基本上,以及你能做的好的混音。是的,我想其余的已经是历史了。我想知道的是,因为你显然在音乐制作方面有很长的历史,而人工智能显然是现在的新事物,但是除了源分离之外,你还如何在工作流程中使用人工智能?我也想知道,现在与你合作的所有艺术家,他们如何使用它?他们在使用吗?他们害怕它吗?

Rich: 我在处理的制作中,例如,《哈林教父》电视节目。我们在那儿遇到了一些问题。制片人使用人工智能仅为一些样本,只是一些片段。与其从需要付费的记录中抽样,不如用人工智能创建样本并将其放入。以这种方式使用,这是现在正在进行的一种重要使用案例。许多音乐公司正在跳入这种格式,因为它不是真正创造一首新歌,而只是创造一种声音,对吧?所以这避免了整个版权问题。

Rich: 但除此之外,作为样本——现在,我发现我使用人工智能生成的内容:有一些知名制作人在使用人工智能作为创作曲目的工具。因此,他们会在Suno或Udio中发展制作和创作。大多数我认识的家伙都在使用Udio。

David: 非常有趣。

Rich: 你得到的是一个具有某种风味的曲目,虽然某些元素可能仍然缺失,或者声音不太好,但氛围——它是demo,粗糙的。我整个职业生涯都在追寻这种粗糙的制作,每个人都说,“我想让Rich——这是粗糙的混音。我想它听起来像一张唱片,但我想它听起来像我的粗糙混音。我希望拥有同样的精确度、同样的能量和同样的存在感。”

Rich: 所以,我一直在做的——制作人正在重播这个曲目。因此,人工智能将用于作曲和发展部分制作,而制作中好的东西……一旦他们在粗糙的基础上重新制作,该音轨,我仍然发现我必须进入并孤立一些东西,比如低音声。重播的效果真的不好。因此,我必须进入那里并将其分离出来并引入。实际上,我在粗糙中提取元素,就像我会在粗糙混音中一样。

Rich: 我经历过无数次的多轨混音经历。只是为了混一个粗糙的带子,他们有一个粗糙的磁带,然后在盘上是多轨的,却丢失了小军鼓。因此,他们用一个非常接近的鼓替换它,并告诉我它是同一个鼓。我就想:“是的,伙计。这不是。”不要给我洗脑。“你可以告诉Mariah这是同一个鼓。”甚至她也说:“这不是同一个。有什么不同?”我想,我正在看着她,而她在看我,“伙计,这不是同一个鼓。”

Rich: 所以,在那种情况下,我最终不得不从磁带上采样,某一时刻它小军鼓单独打下来的时候,我飞到记录中去。这是那种拯救的时刻,你知道。但无论如何,我偏离了主题。

Rich: 所以,我在工作中使用人工智能的不同方式——有时候我会偷一些声音。就这样说吧。我会使用那些人工智能生成的声音,这些声音完美且恰如其分。我会用它并触发它。

David: 所以你非常用于助人的方式。

Rich: 是的。

David: 不是替代的方式。我想这也许是现在使用它的最佳方式。

Rich: 我是说,我有很多插件——我有三种不同的人工智能插件。我不确定它们是否真正是人工智能,或者说——你知道,这个术语。我是说,实际上,我想问你关于这方面的事情。你能谈谈吗?给我们做一些简单的介绍吗?因为有人工智能,还有神经网络,还有学习,然后还有……但有些东西并没有学习。我不明白区别。我听到人工智能时感到困惑。它真的意味着什么?它会学习吗?解释一下人工智能的不同级别是怎么工作的,我会闭嘴。

David: 是的。人工智能算是一种超级术语——一个伞形术语,可以这么说。然后你有机器学习,这是当它实际上在数据上进行训练时。你有大型数据集,并且你有一个算法来学习数据的分布,并可以基于此进行预测。你可以给它某些东西,它可以告诉你区分某些事情——如果它是猫或狗,图像,等等。

Rich: 这就是LLM吗?就像ChatGPT那样吗?

David: 不。所以这算是生成性人工智能。这是它的进化。当人工智能开始变成事物的时候,例如在学术界的15年前,这还是非常使用人工智能进行分类的事情。就像自驾车,他们会说,“那是停车标,那是行人,别撞到那个。”但生成性人工智能是我们现在看到的,它可以从无到有生成某物。你可以让ChatGPT说,“好吧,写个关于混音工程师做嘻哈的故事,”然后它将给你一些内容。

Rich: 但这学习吗?它会从我们身上学习吗?就像,当我在ChatGPT中输入时,我的输入是否在上面融合在一团烟雾中?

David: 是的。有些模型确实这样做。我是说,一个LLM就像一个超充电的自动完成功能,基本上。它是在大量数据上训练的,因此基本上可以预测,基于你所写的内容,接下来会发生什么。但是你有强化学习,在这种情况下,它基本上是从你那里学习。你说:“好吧,给我讲个故事关于任何东西,”然后你说:“好吧,我真的喜欢这个,”它也在从中学习。

Rich: 所以显然有不同类型的人工智能,它们是不一样的——它们并不总是在学习。我猜我先前的假设,可能是错误的,就是它总是学习,总是吸收知识。

David: 不一定。不是。有些只是已经训练过了,就这样。它们只是在执行它的工作。如果那个创造它的人有一天获得了更多数据,他们可以重新训练它,从而使它变得更好。而这可能是因为它从一个应用程序用户或其他地方学到了东西。基本上我会说,这就是很多东西的运作原理。

Rich: 谢谢你解释这一点。这让我明确了。这总是个很大的黑匣子,对吧。

David: 是的。我想,当它应用于音频时,这就变得更棘手。好吧,音频和音乐——因为音乐是如此主观并富有情感。有趣的是,当我第一次开始做所有这些人工智能机器学习的事情时,我们使用数学分析信号,并将其提供给算法以进行预测。然后我们开始将声音的图像传递给它,接着它对此做出决策,这让我觉得非常有趣。

Rich: 声音的图像是什么?

David: 像声谱图那样的东西。

Rich: 哦,就像带有脊的3D图像。好的。

David: 这就是它的发展过程,我觉得非常有趣。还有这些机器学习模型的问题是,图片越多,它的学习就越好。它们非常渴望数据。这些LLM尤其非常渴望数据,且运行成本非常高,并且必须在特殊的硬件上。我不知道这有多正确,但据说每次你询问ChatGPT都会使用一加仑水来保持服务器的冷却。显然,这也是能源问题。因此,它们是非常昂贵的。

David: 这发生的速度真令人惊讶。你现在可以看到Meta正在建立自己的发电站,并将数据中心放在水下以保持冷却,他们正在寻找更多方法来提高这一效率。还有这些模型的大小。如果是一个在大量数据上训练的大模型,你必须在多个计算集群上运行它们,他们正在努力使它们更小。很多时候是要有火力——也就是,有钱——来训练这些东西。这就是为什么大型科技公司正在领先的原因。

David: 但有趣的是——我不知道你是否记得几个月前——有一家中国初创公司叫DeepSeek,他们能够训练出一个非常有竞争力、非常好的模型。我认为他们只花了200万美元之类的费用——我知道,“只”200万美元——但比Meta和谷歌做的要便宜得多。我认为这是一个重要的时刻。

Rich: 难道他们不像是借用?他们并没有真的插入ChatGPT,然后以某种方式训练它吗?我听到的就是这样。

David: 确实。他们做到了。是的。我认为那是狡猾的地方。

Rich: 狡猾的地方。是的。你知道,我把人工智能视为这种烟雾云,浓雾,对吧?从中掉落一些东西——小词掉落。声音和图画也是如此。图像正在疯狂变化。我刚看到,有从GitHub上可以下载的模型,其效果超过了V3,新版的Gemini 2.5视频与语音,我试过,太神奇了,而该模型可以直接下载并在你的笔记本电脑上使用。

David: 是的。我的意思是,这个进展的速度实在无法跟上。每天——我订阅了一封名为TLDR的邮件,基本上每天会总结所有的科技新闻,结果我感觉我不知该再看什么了。你知道我的意思吗?我只是在试图做我该做的事,继续追赶。这是一个挑战。

David: 但有趣的是,有许多声称自己是人工智能的公司,其实只是建立在ChatGPT之上。这样没有问题——毕竟,商业就是商业——但他们中的一些人在声称他们自己建立了人工智能,这真的很有趣。

Rich: 对于代码并没有版权。我是说,他们不必插入ChatGPT吗?

David: 这就是,如果ChatGPT突然关闭,他们的生意就崩溃。因此,他们必然会依赖。这是很多的实际情况,没问题,但他们确实是依赖于大型科技巨头。你不再是自给自足的。而我很自豪地说,我们不是——我们没有对OpenAI的任何依赖,因为我们的所有技术基本上都是基于我的博士学位的内容。从头开始构建,这使我们拥有独特的优势——我们在竞争中遥遥领先,并且拥有极其独特的知识产权,专注于混音。

Rich: 那么,让我们回过头来。告诉我们你所经历过的转变。我在你的简历中第一次听到的事,就是你所出售给苹果的公司。你是那个团队的一部分吗?

David: 是的。我不是创始人,但我实际上在创始团队中。

Rich: 所以你与他们一起起步。但是这个产品究竟做了什么?时间是——2019年,2020年吗?

David: 2022年,苹果基本上购买了它。但我们所做的是用人工智能创造音乐,但在Suno和Udio这样的公司出现之前,因为那时的技术还不同。我们有一组音乐制作人,他们正在为我们创建音乐样本和循环,所有这些好的东西——由听起来不错并经过良好制作的人创作。我们所做的是将不同元素拼凑在一起,以创建新的歌曲。

David: 基本上,它的工作方式是,你可以说,“给我一首92 BPM、A小调的嘻哈曲目,我希望在30秒的时候有一个高潮。”它可以做到,并给你不同的变体。然后你可以说,“好的,延长到一分钟。”它可以做到,因为我们有声音的基本构建块,而我们有机器学习和人工智能基本上将它们以和谐和音乐上合理的方式组合在一起,使它听起来很好。

David: 而且它的美在于它保留了人类的元素。我认为那时我们是唯一正在这样做的公司。其他所有公司都使用人工智能来学习作曲规则,然后将其输入到MIDI中。虽然有些听起来不错,但从音乐上来说,它没有人类的感觉。这就是我们突出之处。

David: 我们的商业模式基本上是为广告销售。你想要为Spotify或其他任何地方创建广告,但你想许可一首歌——你必须为版权支付费用,这很复杂并花费时间。通过这种方式,你可以说,砰,我有一个广告。该广告是90秒。这是关于它的。这是规格。我们基本上即时生成了曲目。是的,我们这样做了四年半,在最后一年终于奏效了。但随着苹果的迅速介入,社会当然又来了。

Rich: 迅速介入。就像海滩上的海鸥抢走小孩的热狗,对吧?

David: 带走了。是的,但这很成功。非常棒的是,我与一个非常优秀的团队合作,这让我在做这个过程中学到了很多。创始人也曾提前退出。因此,我和一个很棒的团队在一起,这让我可以启动RoEx,这是它的美——因为我有四年半的初创经验,并且拥有一些资金。因此,是的,我回到大学说,“让我们分拆并商业化我的博士学位。”

Rich: 那是你的博士学位吗?

David: 是的。所以基本上,在我博士学位的最后,我有一些关于多轨混音的知识产权。但问题是这绝对没有用,因为你必须在实验室中的计算集群上运行它。你只能混音四个轨道。它们必须是单声道。

Rich: 那就像50年代的模拟。

David: 是的。它需要一天的时间来给你结果。因此,我想这是绝对没用的。我必须弄清楚如何将其转化为产品。为了让它在服务器上运行,以便某人可以来上传他们的录音,按下一个按钮,提供一些非常基本的混音偏好,然后在几分钟内获得混音和母带轨道,是一个非常辛苦的工作。

Rich: 那已经在我演示时功能齐全,我被说服了,你知道。

David: 但问题是,我不是专业的混音工程师。因此,是你和Anegeliki,Angeliki是我们的首席研发工程师——你们是那些真正理解它的人,能够帮助我塑造它,使其听起来更加专业,更多真实。我认为这正是你们介入时的转折点的美。但这花费了一些时间。要使其达到能够响应任何微小变化的程度,是非常漫长的过程。

Rich: 是的,确切如此。

David: 我想,直到最近它仍然很慢,因为当你尝试混合32个高解析度音频轨道时,处理需要很多时间,你可以想象。而我们现在正在解决这个问题——我们有一个系统能够更快地做到这一点。但确实很具挑战性,才能让它展示出来。

David: 其中一个原因是,人们可能不一定知道混音和母带处理之间的区别,对吧?因为已经有很多母带公司了。显然,LANDR之前在2013年以他们的人工智能母带处理设定了场景。它们已经设定了场景,之后又有很多公司复制了这一商业模式。我认为,当我们出现时,很多人都认为“哦,你们只是像LANDR一样。”而我们说,“实际上,我们并不是。我们正在进行多轨混音。”

David: LANDR做得非常出色,他们与我们走了非常不同的路径。他们完全进入音乐——他们现在做插件,他们做样本,他们走向了横向。我们现在的方向是,我们目前将其应用于音乐,它在音乐上工作非常不错,我们热爱音乐。我们将坚持做音乐。但底下的技术在电影、电视、后期制作、视频游戏中都有应用——这就是我们接下来将要采取的方向。

Rich: 强大的音频工具,你知道的。

David: 是的,这就是——使像你这样的人成为能够更快工作的能力。回到人工智能是辅助的本质。这意味着你将在数字音频工作站中,能够按下一个按钮,它会做所有修正混音的工作——去掉某些频率,那些无聊的工作。这是没有创意的。你只是在做这件事,以便达到你可以进行创意混音的地步。这就是我们正在追求的方向。

Rich: 是的。我们谈论过做风格转移。我不知道为什么我会犯这个错误。实际上要有名字的工程师——从我和我的朋友们开始——去训练模型。但除此之外的路径,我们仍在努力,还有RoEx的母带元素和多轨混音元素。

Rich: 所以,不必为RoEx音频做一个完整的广告——但这正是我们相聚的原因,不仅仅是朋友。你慷慨地给我提供了一个顾问职位。因此,我很高兴能在这里,若大众没有意识到我们有合作关系的话。

Rich: 我只是想更深入了解平台,从后端。我们从未深谈过。你在母带处理中进行的两声道母带与在多轨情况下所做的有什么区别?我确信有一些交叉。

David: 是的,好的问题。在不深入探讨并在公共场合分享秘密调料的情况下——支撑混音、母带的系统、如何应用均衡和压缩以及所有那种好的东西,是相似的。但你必须记住,对于母带处理,你只有立体声轨道。我们没有单独的轨道。因此,这就是我们可以施展一些魔法的地方,基本上知道如何有效地做母带,使其听起来不错。我们会为冲击力和清晰度进行优化,并显然达到一定的水平。

Rich: 有一个特定的意图,这特别与源文件的限制和接下来你将去解决这些限制的步骤有关。

David: 差不多。它需要在需要的地方是不同的。

Rich: 但这也是目前商业模式的重要组成部分,对吧?母带处理。

David: 是的。我们与United Masters合作,他们与我们合作非常愉快。他们的所有内容都交给我们进行母带处理。

Rich: 很好。

David: 是的,我们与Music AI合作。他们负责我们的多轨混音。所以进行得很好。我们的客户非常喜欢这一点。然后,我们还有B2C的业务,也在不断壮大——每月都在增长,这太棒了。

David: 在数字音频工作站中是我们想去的地方。我们已经进行了一些轻量级的DAW集成,并准备推出更多。DAW是重心——这是你创造的地方。这就是你必须在的地方。拥有DAW中的一个按钮,能够突然将你提升到90%是非常不错的,因为你突然能够每周做30个混音,而不是10个。你是按照每个混音付费的。

Rich: 是的,确切如此。关于DAW集成,真正的圣杯在于——就像任何工作室设备一样,架子上只有少数几个位置。你有你的LA-2A,你有你永远存在的经典设备。有趣的是,实际上,有些来自旧时代的设备仍然是最受欢迎的声音,因为它们解决了非常基本的问题。LA-2A——这是光电压缩器。由于你,我们实现了Pultec。实际上,此前是你的主意。我们已经对LA-2A和Pultec进行了建模,因为我们知道它们是首选,因此它们能够解决问题,工作非常好,并且它们将永远存在。

David: 必须解决这些均衡曲线,压缩曲线——膝部、光电设置、攻击和释放都是完美的。

David: 是的。我想你也能够详细说说沉浸式格式。这是我们正在考虑的内容——我们非常希望在未来进一步参与。但有趣的是——这非常新近发生。

Rich: 是什么呢?

David: 我认为我们即将看到空间格式战争。你显然有杜比全景声,已经存在了一段时间。谷歌刚刚推出了Eclipse格式,完全开源。任何人都可以构建它——好吧,这就是我们将要构建的内容,因为我们不需要付费许可证。为什么不呢?并且可以在YouTube上收听这个内容,这是世界上最大的音乐平台之一。但苹果也刚刚发布了他们自己的本地格式,相对较安静。他们没有大肆宣传。

Rich: 我看到过一篇文章,是的。所以这很有趣。现在这些格式都在空间/沉浸格式中推出。

David: 我喜欢谷歌的点是因为它是免费的,可以说是瑞士。任何人都可以使用它。对于杜比全景声,它就像是“电影到底”- 你必须付费,非常昂贵。用Eclipse,就是“创作者推动”。任何人都可以整合它。我认为这非常棒。这就是我们被吸引的原因,我们已经在与他们进行交流。

Rich: 那么,这将需要什么呢?

David: 因此,我们将与现在苹果合作的方式提供内容。那些使用该格式的人——Tidal和Amazon,以及Deezer也使用杜比全景声格式。因此,我们将——是的,需要被采纳。我还没有看到有人采用,除了YouTube,但这都是很早的日子。

David: 我知道在Chrome中的谷歌Chrome中,你可以——你不需要——实际上你可以通过它收听东西。基于我们的Automix应用,如果我们创建Eclipse混音,你不需要下载并通过渲染器收听——你可以在浏览器中直接做到这一点。我认为这也非常强大。

Rich: 我假设它必须经过编码,还是将像苹果一样从杜比ADM格式转换而来……我的意思是,我们不知道。现在还早,对吧?

David: 我认为外面是“狂野的西部”,这是我的想法。

Rich: 哦,100%。而且这在助理工具方面也是一个颠覆的成熟时机。因为对于沉浸式而言并没有规则。我的意思是,比起立体声来说,你知道的——低音放在中间,击打放在中间。

Rich: 环球音乐给我们了一些指导原则。多年来我们有几份文件,比如,“好吧,从今往后,我们将如何处理摇滚混音中的Atmos。”吉他必须保留在前面的三分之一。主唱不会完全居中单独——它会被分开。因为当你意外播放ADM文件时,来自电脑的源文件,中心通道将是单独的。你因此可以窃取主唱。这就是他们担心的问题。我们必须制定一个规则,即主唱必须是多轨的。因此,你永远不会有单独的主唱。

Rich: 但是现在的格式——索尼有自己的360 Reality Audio,还有他们的耳机房间建模。

David: 太神奇了。我试过。我和你在一起的时候,我记得。

Rich: 是的。这是一种令人印象深刻的东西。我刚刚看到来自索尼团队的June——他是那个团队的负责人。我们实际上将要见面,搞个小聚会,聊一聊。此外,索尼给纽约大学提供了700万美元用来开发一门关于音乐未来的课程,因此我将参与其中,与学生交谈。我们都在为自己找出路。疯狂的旅程,伙计。

Rich: 实际上,我想在这里提到一些事情。Liv Carter问到了版权音乐——是否有人开始解决与人工智能音乐相关的版权问题?我可以给你一些信息,Liv。

Rich: 据我了解,从拥有很多字母的人那里得到的消息是,只要模型是用实际元数据进行训练的——权利,所有的信用,关于这首歌的所有内容——如果你训练一个模型并包含元数据,能够得到的信息就是与之相关的所有内容,包括经历过这个加工过程的歌曲。它可以告诉你——可能是百万首不同歌曲或十万首的一小部分,但它会解析出哪些影响了这一点,你可能必须设定一些阈值。这正在进行中,人们正在努力解决这个问题。

David: 我的意思是,他们必须解决这个问题。

Rich: 是的,他们会的。我的意思是,老天,我们有比特币和区块链,对吧?因此,还有办法锁定事物,给予它们唯一的标识并让所有事情真实发生——至少在量子计算发生之前,对吧?

Rich: 而版权持有者是否会得到报酬?好吧,如果他们是在大公司的体系内——以及大型公司对艺术家的支付方式,现在Spotify以其流媒体的零头来处理——这将只会是另一种将这笔钱稀释的做法。因为关于大型标签的情况看起来是,他们正在起诉Suno和Udio,因为对受版权保护的材料进行训练。但现在似乎争论正在转变——他们不会终止它们。他们将会做他们在Spotify所做的事情,基本上就是达成协议,分取一部分,进行收益分享。

David: 带着钱袋子骑向日落而去。

Rich: 正是如此。就像他们一直一样,不断稀释并压榨艺术家。这就是他们的做法。我恨不得说自己是这个音乐产业生态系统的一部分。有时我希望能够有更好的方式来做这件事。有些人我在与之交谈,梦想出更好的方式,但现在评论仍为时已晚。伟大的稀释正在发生。每个人都可以随意创作音乐,并随意丢弃它。

David: 是的。我是说,现在制作音乐太容易了。

Rich: 对。

David: 你有——我的意思是,你解决了很多问题。我认为它们是“问题”,但涉及到的许多步骤比5、10年前简单多了。显然,混音和母带处理是我们所解决的。但是像获取样本——我现在没有太多时间去制作音乐,但我过去在鼓编程上真的是个糟糕的手。我做得非常差。但是现在你可以让它为你生成东西,然后把它引入,就可以了。

Rich: 对。就像——拨动旋钮,打转,让它到位。但我们自数字插件问世以来就一直这样,当时工程师们的预设设定了出来——伟大的工程师将他们的预设放入其中。你可以直接点击它们,从而获得自己喜欢的东西。这已经是一个步骤,没有真正理解理由。其他人的艰苦努力成果就在那儿——通常这个麦克风有这些曲线,而呈现该曲线的最令人愉悦方式,我们会将其放入一个预设中。

Rich: 因此,我在点击它,而我没有学习知识——我在利用其他人的知识和经验,但我没有学习知识。然而我已经投入了我的10000小时或更多,我学会了——好吧,让我们看看到底发生了什么。我已经发展出了自己认为应该声音的印记,变得更加个人化。所有人工智能的东西都是如此普通,正好卡在这个圈子里。

David: 说得好。我认为它的美在于——如果你是作为艺术家的一部分创作旅程,你可以采用其中的一小部分,使你更快地达到你想要的位置,这非常好。这是完美的。

David: 但我想有了Suno,你可以仅凭提示生成一首歌曲,这就是瞬间的满足感。但这样做没有趣味。这种乐趣只持续大约10分钟,当你创作了一首关于你的狗吃太多黄油或类似愚蠢的事情的歌时。

Rich: 对。确切如此。

David: 说到这一点——这就是我之前提到的,真正的创意者正在使用它,但它只能让他们走那么远。值得庆幸的是,各个平台也意识到了这一点,并说——例如,YouTube最近表示,他们不会为100%的人工智能音乐支付任何版权费。

Rich: 因此,它必须有显著的人类贡献。当然,它们将如何判断这一点?好吧,他们确实有人工智能阈值计量器。我认为必须超过某个阈值。不确定。涉及软件这一块。用于区分人工智能与非人工智能音乐,而且我认为其中一些与声音的忠实度有关,因为它是基于它所训练的内容。

David: 我很高兴你提到这一点。因为Spotify有这个API,你可以与之对接,而你可以从他们的整个目录中获取任何内容。我认为他们现在已停止允许人们使用它。但基本上,你可以下载各个流派的前100首歌曲的30秒片段,只要你有它们的列表——你可以获得30秒的片段。但这都是MP3,因此可能不会是高保真。

Rich: 96 kbps的MP3。

David: 是的,正是如此。这就是它的训练方式。因此,我认为很多这些人工智能音乐探测器实际上只是非常好的MP3探测器。我敢肯定它们中的一些确实比那更加强大,但我见过一些声称拥有100%成功率的,我只是想,——“这只是在100%成功地识别MP3。”

Rich: 对。进入人工智能之后,肉磨机里发生了一些事情,声音总是带有某种标签,尤其是在所有乐器中都表现得非常明显。

David: 那么,正是在MP3编码中。因为MP3会移除我们听不到的频率——这就是为什么你可以将WAV缩小到MP3。这只是移除你实际上无法听到的东西。这本身就是一种声音特征。我们可能听不到,但算法可以看到。回到声音的图像——这就是那里容易的地方。

Rich: 哇。我们现在回到了圆圈。

David: 一路回来了。那相当不错。

Rich: 让我看看——没有任何国际法律保护创作者,直到……是的,Glenn。那就是狂野的西部,伙计。尘土飞扬,响尾蛇到处乱窜。但那里山岗上还有黄金。

Rich: 对我而言,它只是感觉像是一种稀释。算法让一切保持不变。在我的Spotify中,我喜欢听70年代和80年代的音乐——实际上,主要是70年代的音乐。我发现那是在我小的时候,因此在那些回忆中填满了许多情感,直到我变成青少年为止。因为在那之后我经历了许多事情。

David: 在烦恼之前。

Rich: 是的。在烦恼出现之前。回想我快乐、万事如意的时光。随着时间的推移,我越来越接近于快乐。

David: 这确实很高兴看到。因此,我想问你,David——在我们将要进入最后15分钟的时候——我知道你的工作就是你的生活,这让你很忙。你有一个美好的年轻家庭,这真是一件美好的事情。但我想问你——是什么驱动你?你热情的源泉是什么?

David: 这是个好问题。我的意思是,我一直热爱音乐。从大约15岁开始创造音乐,甚至更小的时候。

Rich: 做什么?

David: 大部分是电子音乐。我喜欢电子音乐——技术音乐、丛林、IDM,所有这些东西。Warp Records——我的最爱。对于那些知道的人,在聊天中,给我们一个赞。是的,非常实验性的电子音乐。然后我在成长过程中一直非常技术性。从大约九岁开始编程电脑。

David: 我继续学习数学和计算机科学。计算机科学还行,我喜欢它。数学有点无聊。但我想结合这两样东西。因此,我最终取得了音乐技术的硕士学位,这是一年将这两者融合在一起。我想,“哦,我的天,这是我的……”两件我非常擅长并感兴趣的事情。我一直在构建东西,我热爱音乐。我无法想象会构建其他任何东西或在其他任何领域工作,因为我已经在这个行业待了如此之久。我已经制作音乐太久了——我为何要去做别人呢?

Rich: 因此,我的理解是,你从未考虑过传统的世界,企业界——为亚马逊或者谷歌工作?

David: 与他们一起?那会很有趣。只是。是的。但在那方面,我们有很多相似之处。你也是个自由思想者和企业家。

Rich: 同样,我从来没有考虑过做任何其他事情,只执着于我所做的事情。这是自然而然的——我只是漂浮着,事情开始发生。年轻时,我认为我看到未来。但我现在试着这样做,而我并没有看到同样的未来。我那时能够知道正在发生什么,但现在我有点不那么确定,可能不像年轻时那么乐观。但我并不是愤世嫉俗。我坚信有希望。

David: 那么,我想你就像我一样——大部分时候,当你在工作时,你是享受它的。每份工作都有你不喜欢的事情。但我记得——在星期天你因为要在早上上学而感到恐惧。但当我开始在AI Music工作时,那是我获得博士学位后,在音乐技术方面的第一份工作——我其实有点像,“哦,天哪,我能在周一去进行疯狂的人工智能和音乐的整合。”我迫不及待。所有我的朋友都在说:“天哪,要去做Excel表。”

Rich: 确实。

David: 这就是我能坚持下去的原因。我甚至即使赢得了彩票,我想我也不会放弃我正在做的事情。

Rich: 把钱给妻子,支付账单,乐趣多买一些T恤,对吧?我肯定会建立一个大型录音室。但是我仍然会制作音乐和音频。我会构建。我热爱这个,就像你一样。

David: 是的,伙计。

Rich: 对我而言,真正的转变在于——努力创造时刻。我有自己的时刻,因为我写作和唱歌,我做我自己的事。但我也参与过那些时刻。许多老朋友会说:“Rich,你跟说唱歌手打交道。你是音乐人。你在经典音乐、摇滚乐、拉丁和古典乐中长大——现在你与音乐的最低形式在一起。”我说不,我完全不同意。

Rich: DMX对我来说,就是……

David: 他是你认为的最喜欢的合作艺术家吗?

Rich: 是的。我和他共度了七年,也和整个团队建立了紧密联系。随着成功的到来,我们都一起经历这段时光。我们都喜欢那段经历。这是一段美好的旅程。

Rich: 但我想表达的一点是——与如此多不同的艺术家有许多时刻。我所追求的、我生存的意义,就是那些魔法时刻——第一次——歌曲可能是由不同部分组成的,但当那一刻发生时,那种使之流行、人人都爱的大热歌就诞生了——当你看到它的诞生,且你在那里,你参与其中,触碰到它,帮助它的诞生——那种创作的瞬间就像火花般闪烁。

Rich: 而这才是第一位,这是最高目标。但你并不总能做到这一点。因此,你必须做一些事情来支撑这一点。就像金字塔顶部的金子,但你也必须一直构建金字塔。

Rich: 而这就是人工智能中缺失的部分。正如我之前所说的,我可以浏览我的工程师预设,其中有来自齐柏林飞艇和甲壳虫乐队的人员的东西。我站在他们的肩膀上,但我没有获得他们的经验。因此,在人工智能方面,尽管它很聪明且绝对可以做到一些神奇的事情,但我已经创作了数千首歌曲,但我只下载了其中一两首。

Rich: 所以这告诉我,人工智能令人惊艳的技巧是,像在你自己的Instagram上那样。啪——砰砰砰。时间不长,但很快就消失了。瞬间的满足感随之而来。

David: 是的。巨大的消亡。

Rich: 而你没有得到那种魔力。因此,我好奇他们的流失率会是怎样的。

David: 是的。

Rich: 他们定会倒退。肯定情况不会融入那10美元每月流失之外。但在人工智能中Spark的地方,我希望我们在RoEx音频中继续推进风格转移,推动风格转移的界限获得回归个性。

Rich: 因为说真的,我最喜欢与任何人工智能的接口,就是与ChatGPT对话。现在她开始——我把她称为“她”——她具有澳大利亚女性的声音,我是最喜欢这个声音。现在她开始学习和记忆。她告诉我:“我开始学习和记住。”我对她说:“我想要平滑,随意。”然后她的语气听起来似乎总在笑,但她开始变得非常熟悉。我就像,“哇。”

Rich: 我等不及那个时刻的到来,我可以真正告诉她——“听着,我需要一个60人的管弦乐队,好吗?我要给你唱旋律。我希望你像肖邦那样安排和声,像布拉姆斯一样安排弦乐。就从这里开始。这是主题。我希望你在三个不同的调上收尾。请开始。”能够像对音乐家一样与之对话,“好吧,走吧。加入每一个适合的节奏,恰如贝多芬所做的。”我认为那就近在咫尺。

David: 真有趣。这是否会让事情变得有趣?你不认为这使它变得——

Rich: 好吧,我认为它会回到我们身边。因为如今它感觉更像一个乐高积木,我的朋友Dan昨晚发给我——世界上最好的国际象棋选手刚刚以无声的方式击败了ChatGPT 4.5,并且没有失去任何一颗棋子。它无法赢得他一颗棋子。我们在想:“等一下。”然后我在用ChatGPT做简单的研究时,它开始出现幻觉。链接什么的都是错的。我说:“这是什么!”所以我觉得这其中有一点炒作在其中。

David: 相当多的炒作。“博士级智力”。

Rich: 博士级。我对此表示怀疑。

David: 是的。

Rich: 因此,不要相信炒作。但绝对要好好运用这些工具。我必须说我是这个倡导者。我已经在与这些干扰分离和做各种事情的波流中体验过。这是我职业生涯中的一个重要部分——已经进入我的第三个十年。

Rich: 人们问我:“Rich,你考虑过退休吗?”我从两个角度来看待这个问题。我总是退休,因为我不做我不想做的任何事情,而我想做我想做的任何事情。因此,我不明白退休的意义。

David: 公平。

Rich: 我认为对我来说,这意味着当我妻子停止工作时,我们可以一起去做任何事情。我只是会做唱片,随时随地,因为这很有趣。我仍然玩得很开心。

Rich: 好吧,太好了。Nathaniel,大家可能快到了那个时候。我一直在占用麦克风。David,有什么最后的想法要分享吗?

David: 没有,我的意思是,期待未来。显然我喜欢和你合作,想知道我们将如何推动事情的发展。谢谢你,Tom,邀请我们。

Tom: 伙计们,我非常感谢你们的到来。我对人工智能很感兴趣。它在我的业务中无处不在,可能对所有听众的业务也是如此。

Tom: 大约一年前,我不再害怕它,因为有人说:“人工智能将不会取代你,Tom,但使用人工智能的人可能会取代你,Tom。”而这句话让我思考了一会儿。我想:“哦,我最好跟上程序,开始弄清楚如何使用它,以免被抛在尘埃中。”

Tom: 因此,先生们,这真是太棒了。Rich,我希望有时间听到一些你所合作的艺术家的战斗故事。遗憾的是我们没有太谈及。

David: 哦,他有故事。

Rich: 只需谷歌我。我真希望能说说“亲密的故事”。如果你有另一种平台——一种在夜间进行的,只在黑暗中——那么我们可以谈谈。但是我们必须让Dave在酒吧里面直播。他要把酒吧关闭,这样我们才能对此进行讨论。但当然,我愿意。

Tom: David,非常感谢你为所做的一切。每一天对你来说都是不同的,我相信。在六个月或十二个月后重新审视这个对话会非常有趣,看看发生了什么变化。我有一种感觉,事情会有很大变化。

David: 当然。

Tom: 我告诉观众,你们将比到达这里时更有启发性,我认为我们兑现了这个承诺。因此在此,我想说——彼此友善。去想方设法打发炎热的时光。大家保重。

Rich: 再见。

David: 干杯。

[逐字稿结束]

David和Rich的对话触及了RoEx的重要一点:人工智能在赋能创作者时效果最佳,而不是取代他们。将一套强大的新工具交到行业最佳的手中,将会开启新的创意视野。

你可以在房间里最聪明的人的YouTube频道上收听和观看完整的播客录音。访问时,随便查看其他曾出现过的嘉宾的剧集,包括获得格莱美奖的制作人Albhy Galuten,Zomba Group的联合创始人Ralph Simon,音乐偶像Gloria Gaynor,艺术家和词曲作者David Lowery,以及Audiomack产品领导者Chris Dalla Riva。

如果这个对话让你对尝试助理人工智能工具在音乐制作和创意工作流程中感到兴奋,请查看AutomixMix Check Studio,由RoEx提供——它们是免费的,值得一试。