Suno 来了,和全新音乐创作场景一起|Z Talk

Z Talk 是真格分享认知的栏目。


我们在这里谈论最新的行业观察,先锋的创业动态,也在这里与真格老友相聚。我们相信持续的学习和进化,相信最深刻的认知来自实践。


3 月 22 日,Suno V3 版本正式发布。Suno 的创作能力如何?又为音乐创作带来了哪些新的挑战与契机?在本文中,真格基金管理合伙人戴雨森分享了他对于 AI 音乐生成的思考。


在国内 AI 音乐生成领域,真格基金于 2020 年 A 轮投资的「快音 AI 写歌」引领了全新的创作场景——专有音色演唱、歌曲电影解说、生日祝福等。我们始终高度关注 AI 生成领域的最新进展,并期待与你共享和探讨。





Suno 来了,和全新音乐创作场景一起|Z Talk


3 月 22 日,初创公司 Suno AI 正式发布 V3 版本,这一破圈版本被视作颠覆音乐界的 ChatGPT——「Suno 正在创造一个未来,在这个未来,任何人都可以制作出很棒的音乐。」


打开 Suno,用户只需要输入想要的音乐风格、主题,或是歌词,就能在几十秒内得到 2 首时长 2 分钟的歌曲,和一张音乐封面。与前代相比,Suno V3 可以生成更高的音乐质量、更多样的音乐风格与流派、对 prompt 理解更准确、幻觉也更少。


免费用户在 Suno 每天可获得 50 点数,用于 5 次生成,每次 2 首,一共可生成 10 首歌曲。如果每月支付 8 美元,即可生成 500 首;每月支付 24 美元,可生成 2000 首。Suno 尊重音乐创作者与知识产权,因此不允许用户在 prompt 中请求使用特定音乐人的风格与声音。


Suno 来了,和全新音乐创作场景一起|Z Talk

图片来源:Suno 官网


据「定焦」,Suno 背后主要由自研的两个大模型支撑,分别是基于 transformer 的 Bark 语音模型和 Chirp 音乐模型,前者主要用来生成人声,后者提供音乐旋律和音效。两者让 Suno 生成的音乐旋律更智能化、复杂化,这也是这家公司的核心技术。


Suno 成立于 2022 年 3 月,位于麻省剑桥,团队只有 12 人。Suno 最早的投资者之一是 Antonio Rodriguez,Matrix 风险投资公司合伙人。


据「滚石」报道,创始人 Mikey Shulman 是一个「有着少年魅力、总是背着双肩包」的 37 岁哈佛物理博士毕业生。他的想象中,全球会有十亿人,每月向 Suno 支付 10 美元来创作歌曲。目前音乐听众的数量远远超过音乐创作者,在他看来是「如此失衡」。


Suno 来了,和全新音乐创作场景一起|Z Talk

Mikey Shulman


Shulman 本科就读于哥伦比亚大学的应用物理专业,辅修应用数学。2009 年毕业后来到麻省剑桥的哈佛大学攻读物理 PhD。2015 年,Shulman 博士毕业,加入了 AI 创业公司 Kensho Technologies——专注于以 AI 为金融业提供高级分析和预测解决方案。2018 年,Kensho Technologies 以 5.5 亿美元被 S&P Global 收购。


在 Kensho Technologies,Mikey Shulman 与另外三位联合创始人——Georg Kucsko, Keenan Freyberg, Martin Camacho 相遇,并一同在 Kensho 工作至 2022 年。他们在 Kensho 的主要工作内容是开发一种 AI 语音转录技术,用于转录上市公司的财报电话会议。


AIGC 浪潮之中的音频远落后于图像与文字。在意识到这一点后,Suno 团队于 2023 年 4 月发布了基于 transformer 的文字转音频模型 Bark,并在 Bark 早期用户调研中,发现用户真正想要的是音乐生成工具。「所以我们开始进行一些初步实验,结果很不错。」


Shulman 和 Camacho 都很喜欢音乐,在 Kensho 时经常一起即兴演奏。许多 Suno 的成员也都是音乐家,办公室放着钢琴和吉他,墙上也挂着古典作曲家的画像。Suno 的官网上写着,「我们喜欢写代码,创作音乐,喝咖啡。音乐和声音实验是我们公司文化的全部——从午餐闲谈到办公室的录音棚。」


Suno 来了,和全新音乐创作场景一起|Z Talk


图片来源:Suno 官


对 AI 音乐的未来畅想


真格基金管理合伙人戴雨森:Suno V3 有点像 Midjourney 的 V3、GPT 的 3.0 版本,给音乐产业带来了很多变化的可能,这里简单畅想一些可能的方向。


UGC 音乐平台


之前做音乐 UGC 平台的公司基本都没有起来,一个重要原因是,音乐是创作者头部效应最明显的产业之一。


一个普通人拍的视频可能是具备消费价值的,因为拍摄的人、事、景等可能很有意思,但是普通人创作的音乐、或者翻唱的歌曲几乎是完全不具备消费价值的。实际上,我们日常在听的、耳熟能详的、能出圈的歌曲也就是万首的级别。因此,控制了头部创作者的三大唱片公司,一年的版权收入是几百亿美金。天下苦三大久矣。

 

现在以 Suno 为代表的 AI 作曲工具的出现,突然极大地降低了创作一首 60-70 分音乐的门槛。这有点像摄影的发展:一开始要用胶片拍摄和冲洗,然后诞生了数码相机和 Photoshop。门槛进一步降低,摄影工具变成了手机摄像头和剪映。当大量的普通人突然可以按照自己的想法、歌词,来生成达到及格线的音乐时,就可能会随机诞生出全新的音乐家和大作。


与此同时,Suno 也是 AIGC 应用里难得可以形成「内容生产者 + 消费者闭环」的平台。妙鸭相机和 Midjourney 这类 AIGC 工具的长期问题,都在于 AI 产生的内容在本平台上的再消费价值不足。用 Midjourney 生成的图片,一般来说只对生产者本人有价值。作为内容消费者,人们很难去刷 Midjourney 或是妙鸭的内容广场。


但是,用 Suno 生成的音乐则不一定。事实上,我发现自己很自然地就在 Suno 上开始听推荐的音乐了,有的还真的有点意思——这首最近在 Suno 排行榜第一名的中文摇滚就还真的挺好听的!




个性化音乐


70 分的音乐单独欣赏的价值并不大。因为绝大多数情况下,用户总可以去听 95 分的佳作,甚至单曲循环最好的那首歌。


但 70 分的音乐,配合合适的场景可能是有用的,尤其是可以随时生成个性化歌词音乐的时候。一种常见的场景是作为生日礼物,活动物料等。另外,配合视频等内容也可能产生有趣的玩法。


来源:B 站 up 主 @唐僧说电影,《心惊胆战》


这是一个 up 主使用「快音 AI 写歌」创作自定义音乐来点评电影的例子。在这里,音乐本身是否好听其实并不是那么重要,重要的是用带有韵律的方式来传达信息。



罐头音乐生成器


有一些场景下,70 分的音乐也是可以接受的,比如说公共场合的背景音乐等。

想起小时候有个不存在的乐队叫「班得瑞」。实际上,班得瑞」是台湾一个乐队公司把很多风格类似的器乐包装在一起,出了很多专辑,一度很流行。


而 Suno 现在生成的纯器乐质量已经不错了,作为日常咖啡厅的背景音乐也完全不觉得违和。这可能是因为没有人声的器乐更加接近纯数学,AI 能够更好地生成。


例如,这首曲子就很「班得瑞」:

https://app.Suno.ai/song/a0f12ca5-0833-49ce-97f1-cd6094510f2c


音乐人的 Copilot


就像我们不会要求 ChatGPT 直接写出来一部小说一样,现在对 Suno 的要求也不应该是直接生成一首完整的歌,而是作为再创作的起点。


Suno 可以首先作为音乐创作者的 Copilot。看起来,这里的难点是如何生成专业创作者需要的工程文件(和 3D 生成遇到的问题类似),并且如何在一致性和可控性上进一步提升,需要类似图形生成里面 LoRA 和 ControlNet 这样的技术。


现在用 Suno 生成一首歌之后,再 remix 得到的结果就完全不一样了,但还是会经常出现「这首歌听起来不错,但是我还想微调一下」的场景。相信这个是可以很快得到提高的。


总之,现在的 Suno V3 比起之前所有的 AI 音乐创作工具都有长足的进步,可以说是第一次摸到了合格歌曲输出的门槛。但是,Suno 也在音乐质量、一致性、可控性等方面,有许多显然可以大幅提高的地方。


这很像 GPT3 推出时,是第一个让人觉得「这次真的不一样了」的版本,而 GPT-4 完成了大幅提高,变得更加实用高效。期待在 AI 音乐生成领域,我们能够看到更多的惊喜。



AI 为音乐创作带来了哪些全新场景?


快音在 2023 年推出的微信小程序「快音 AI 写歌」,为音乐创作带来了更多想象。


和 Suno 一样,打开快音,输入灵感或一段歌词,就能得到一首属于你的 AI 歌曲。快音还支持多次修改编辑歌词,也可以添加具体人名送给指定对象。如果清唱 60s,还可根据你的声音训练出你的专有音色。


目前,快音 40% 的付费用户用于市场营销,为自己的产品写歌,30% 的用户会用于 KOL 内容创作,30% 用于各种祝福和纪念场景——「送你一首生日祝福」。


快音还带来了一个全新的出圈场景——用歌曲解说电影。根据电影剧情生成歌词,再将歌词输入「快音 AI 写歌」,选择相应曲风,即可生成一首带感的背景音乐。B 站 up 主 @唐僧说电影发布上文中的视频《胆战心惊》后,观看量超过 150 万。


快音成立于 2019 年,是专注 UGC 内容生产力的音乐平台。2020 年,真格基金 A 轮投资快音。在文字和图像大模型飞跃后,快音开始尝试将 AI 大模型和音乐进行结合,并推出了微信小程序的「快音 AI 写歌」。


相比文字、图像,音乐的创作环节更多、更复杂,要考虑词曲一致,也要考虑到混响、降噪等后期处理。同时,高质量音乐数据集较少,标注成本大,需要很多前置工作。快音通过模型辅助人工标注,模型识别准确率可以提升至 85%,人工达 95%,人效提高 10 倍以上。



参考资料

1. Inside Suno, the Startup Changing Everything

https://www.rollingstone.com/music/music-features/suno-ai-chatgpt-for-music-1234982307/


2. Suno改造音乐圈?还早 


Suno 来了,和全新音乐创作场景一起|Z Talk


文|Yusen & Wendi



推荐阅读


Suno 来了,和全新音乐创作场景一起|Z Talk
Suno 来了,和全新音乐创作场景一起|Z Talk

原创文章,作者:ZhenFund,如若转载,请注明出处:https://www.agent-universe.cn/2024/03/17705.html

Like (0)
Previous 2024-03-27
Next 2024-03-27

相关推荐