来源:Z Potentials

图片来源:
SequoiaCapital
Z Highlights
Mikey Shulman,Suno创始人兼CEO,曾在哈佛攻读物理学博士,研究方向涉及量子计算与固态自旋;Sonya Huang,Sequoia Capital合伙人,长期关注AI原生应用与消费级产品。2026年5月,Mikey Shulman在Sequoia Capital节目中接受Sonya Huang访谈,围绕Suno的模型路线、早期创业、AI音乐创作、消费者产品、版权合作以及音乐平台的未来展开讨论。
01 抛开乐理:从声音本身重新建模音乐
MikeyShulman:在西方音乐里,音高通常被归纳为12个。如果你一开始就告诉模型"音乐只有12个音",它最终也只会生成这12个音,你会永远被这个框架限制住。
所以对我们来说,关键就是把关于音乐的既有知识先全部放下,从零开始。音乐在模型眼里只是一段声波:每秒采样48000次,是连续的float32数值。我们要做的,是弄清楚如何直接建模这段声音。早期很多突破都发生在这里。一旦跨过去,我们发现它会变成一台真正通用的音乐生成机器,你唯一受到的限制,就是你能把自己的想象描述到什么程度。
SonyaHuang:很高兴欢迎Mikey Shulman。Mikey是Suno的创始人兼CEO。Suno正在打造一家音乐公司,或者说一个创造型娱乐平台,也是我见过最有新意的AI消费级应用之一。我非常期待和你聊聊这段创业旅程,以及Suno接下来要去哪里。谢谢你今天来到这里。
MikeyShulman:谢谢邀请我来,我很兴奋。
SonyaHuang:太好了。我想先从你的背景聊起,因为这条路径非常出人意料。你从Harvard的物理学博士、量子计算和固态自旋研究,走到了打造全球最大的AI音乐公司。对你来说,是什么洞察把这两件事连在了一起?
MikeyShulman:坦白说,我也不确定该怎么解释。单看履历,我大概并不像一个应该去做消费娱乐公司的人。但很多物理背景的人后来都进入了AI,就像30年前很多物理背景的人进入量化交易一样。说实话,我只是一个还可以的物理学家,比我强的物理学家有很多,包括我的一位联合创始人。我真正学到的是,当你站在两个原本很少交汇的领域之间,往往会有巨大的机会。它可以是音乐和技术,也可以是量子力学和低温微波工程,或者是任何其他看似不相邻的组合。
SonyaHuang:我和你是在Suno很早期的时候认识的。我们共同的朋友Harrison Chase是Suno Discord最早的一批用户之一,他在你们的Discord里玩得太开心了,不停地做歌。也许你可以讲讲Suno早期是什么样的?它是怎么走到一起的?你们一开始就是想做一家音乐公司吗?
MikeyShulman:最初我们其实觉得这件事太难了。你得把时间倒回到ChatGPT爆发之前。我们当时做过一些粗略估算,知道自己喜欢音频,但那些估算告诉我们,要生成好音乐,在算力、模型规模和能力上都还差几个数量级。音乐或者声音本身不像文本那样是离散的token,而是非常难处理的连续信号。所以我们最开始做的并不是生成音频,而是用类似技术去理解音频。幸运的是,我们很早就取得了一些关键突破,然后意识到:原来我们真的可以做音乐。
SonyaHuang:你的数学应该很好。当时那种餐巾纸背面的估算,错在了哪里?
MikeyShulman:数学本身没有错。真正改变的是我们找到了一些技术突破,证明并不需要那么多算力。你可以把它理解成:我们找到了非常高效地压缩音频的方法,而且效果远远超出了预期。所以那是一次很愉快的"算错了"。并不是所有算错的时刻都这么舒服。当然,必须说清楚,一开始生成出来的音乐很糟糕,但我们还是会玩到很晚不想睡。
SonyaHuang:它其实挺好玩的,Harrison应该算最早的10个用户之一。他当时认为它已经很不错了。
MikeyShulman:在我们把它放到Discord之前,音乐确实非常糟糕。当时只能生成大概12.5秒的片段,而且不一定会按你要求的歌词去唱。但我们自己玩得特别开心,所以想看看其他人会不会也觉得有趣。我们借鉴了Midjourney的做法:做一个Discord bot很容易,先放出去看看大家喜不喜欢。结果很多人真的喜欢,这对我们是一个很强的验证。那时也有很多人劝我们不要做音乐公司,因为这不是一个容易做的行业。
语音市场很大,做语音技术也有很多很好的商业场景。但如果你会因为某个东西一直玩到深夜、不想睡觉,那就是一个很强的信号,说明这才是你真正该做的事。所以我们就做了。
SonyaHuang:我很喜欢这个。你自己是音乐人吗?
MikeyShulman:是的,我几乎每天都会演奏。我从小弹很多钢琴,大概12岁左右开始弹贝斯,后来花在贝斯上的时间更多。
SonyaHuang:所以这也是一个很个人、很有热情的出发点,太好了。
MikeyShulman:如果从后来回看,确实有这么一段真实历史:我们上一家公司时,常在一位联合创始人的地下室里jam。我们在那里玩得很开心。不过那并不是我们创办Suno的原因。再说一次,我们当时其实觉得这件事太难了,只是它真的很好玩。
SonyaHuang:你说的是在Kensho的时候?
MikeyShulman:对,在Kensho,我也是在那里认识了很棒的Harrison Chase。
SonyaHuang:Kensho出来的人真的很厉害。除了Harrison,还有Daniel Nadler、Sam Whitmore,也包括你,人数不少。
MikeyShulman:确实有很多人。我真心觉得这很大程度上要归功于Daniel。Daniel是一个特别好的例子,说明人才密度能给一家公司带来什么。他招到很多背景并不线性的人,而且团队整体很年轻;但他很擅长发现人才,也很擅长说服他们加入。
02 从提示词到歌曲:Suno如何把想象变成声音
SonyaHuang:好,那我们具体走一遍流程。比如有人输入一句提示词:"一首关于公路旅行的欢快90年代hiphop歌曲。"这个prompt进入系统之后,会发生什么?模型到底做了什么,才能把一首听起来相当特别的歌返回给用户?
MikeyShulman:某种意义上,这个过程其实很直接。像这样的prompt,首先要弄清楚这首歌的歌词是什么。我们会用各种LLM来生成歌词。这里的线索是"公路旅行",所以系统会判断这趟公路旅行应该讲什么故事。它很可能会猜错,因为用户并没有给足够多的信息,但这没关系。
然后你又说了"90年代hiphop",我们会把这个描述扩展成一组模型能理解的线索:这是什么流派、什么风格。接着把歌词和风格放在一起,我们的模型会接收这些信息并直接生成声音。
真正惊人的地方在于,模型并不知道这里有"人声"和"乐器",也不知道具体有哪些乐器。我们很早就意识到,如果给模型太多音乐知识,它反而会被不必要地限制住。所以我们把一切都当作声音来建模。这让问题变得很难,但最终也让系统变得强大。
具体一点说,西方音乐通常有12个音。如果你告诉模型音乐只有12个音,它就只会生成这12个音,你会永远被限制。如果你告诉模型世界上只有200种乐器,它也只能生成这些声音,你就不可能用Suno得到下一个Skrillex。所以我们决定把关于音乐的既有知识先放下,从零开始。音乐就是声波,每秒采样48000次,是连续的float32数值。我们要做的是学会建模它。早期很多突破都在这里。一旦做到了,你就只受限于自己能够描述什么、想象什么。
SonyaHuang:太酷了。你们从第一性原理学习音乐时,有没有发现模型其实又重新发现了既有的音乐流派、12个音这些东西?还是说,你们看到了另一套不同的能力自己涌现出来?
MikeyShulman:最神奇的是,我们确实会看到一些以前想不到的新东西涌现出来。很多时候,它表现为把本来不该放在一起的流派融合在一起。比如带有sitar的trap,或者带808鼓机的country。说到底,这是在让人们做出脑子里已经存在的东西,而如果没有这样的技术,这些东西要么不可能,要么会非常难。我们也会看到微分音音乐。去看用户做出的各种疯狂作品是一件很有启发的事:其中很多听起来像你熟悉的流派,也有很多听起来非常陌生、奇异,但又很可爱。
SonyaHuang:很棒。你们有没有发现模型在某些流派上更擅长,在某些流派上还不够好?
MikeyShulman:当然有。我尽量不直接用"好"和"坏"去评价音乐。就技术层面来说,我们可以说采样率、bitdepth这些指标,但如果非要概括,我们现在很擅长country,也很擅长pop。你可以这样理解:有些流派相对更公式化一些,所以模型可能更容易做好。不过我也隐约觉得,在这些流派里,我们既提高了下限,也提高了上限;而在我们还没那么擅长的流派里,下限还没被提高,所以会生成很多糟糕的音乐,但上限也被推高了。如果你愿意试得足够久,还是会找到很惊人的东西。
SonyaHuang:Suno V5的质量看起来是一次真正的跃迁。这样的跃迁通常是怎么发生的?
MikeyShulman:这种跃迁什么时候发生其实很难预测,因为它在研究投入上并不是线性的,甚至和我们测试里显示的模型提升也不是线性关系。举个例子,我们可以测量一个模型相比另一个模型的偏好度,也许是10%或15%的偏好提升。但当你真正发布之后,用户有多喜欢、有多愿意使用,或者产品增长多少,并不一定和这个偏好信号强相关。
原因在于音乐本身很混乱,里面有太多因素共同作用。
如果退远一点看,我们有一条相当激进的研究路线图。某种奇怪的意义上,我们一直在做同一件事。我们大致知道V6、V7需要具备什么能力,也知道模型还有很多可以改进的地方。所以所谓版本发布,有时候只是人为划一条线:这部分叫5.5,之后的改进进入下一代模型。这样做也是为了保持稳定的发布节奏。
我们最不希望发生的是,两年都不发布任何东西,只是说自己要做一个"拯救人类的音乐模型",然后两年后才拿出来。在那之前什么都不做,这不是我们想要的。
03 音乐不是纯规模问题:偏好、研究与用户反馈
SonyaHuang:完全理解。你觉得每一次改进里,有多少只是来自规模化,比如算力、数据、人类偏好数据的扩大?又有多少来自你们真正新的研究?
MikeyShulman:音乐真的不是一个单纯靠规模解决的问题。出于很多原因,我们的模型并不大。人们常常把自己从LLM世界里学到的经验直接套到音乐上:在LLM里,模型很大,规模化非常有用。但我脑子里的图景是,LLM世界有很多benchmark。你可以争论哪些benchmark有问题、哪些更好,但它们确实存在,而扩大规模是一种相对有效的爬榜方式。音乐里没有标准答案,也没有这样的benchmark。所以规模对解决问题的帮助没有那么直接。把模型对齐到人的创意品味,是一个更混乱的问题。你和我不会在每一首歌上达成一致,甚至你和我也不会总是认同同一种审美。
SonyaHuang:那我就完全听你的。
MikeyShulman:我可不确定你真的应该这么做。模型不那么大,反而让我们能更快地把音乐返回给用户,而这对好的用户体验非常重要。所以很多进展来自研究和偏好数据。我们收集偏好数据,用它来把模型对齐到用户真正喜欢的东西。一个被低估的点是,偏好数据本身能极大地帮助研究。如果没有我们现在拥有的偏好数据规模,很多正在使用的技术甚至无法被开发出来。所以这里存在很强的正循环:产品被越多人使用,产品本身就越能变好。
SonyaHuang:很有意思。相比文本模型,你们是不是能更直接、更强地利用人类偏好数据?因为文本模型会担心sycophancy之类的问题,而音乐里这个挑战应该小很多。
MikeyShulman:完全是这样。所以我们的优势很大一部分来自能够理解这些偏好、围绕它们做研究,然后把这种反馈通过RL再注入模型。
SonyaHuang:太好了。我想稍微换个话题,聊音乐作为消费现象这件事。你开头提到"消费级创造娱乐平台",我想深入理解它是什么意思。音乐一直是一种文化和社交现象:我喜欢一首歌,把它发给朋友;它像一种稀缺资源,我们会因为喜欢同一首歌而产生连接,会一起听mixtape、一起听歌。对我来说,音乐一直是一种共享的文化体验。你同意吗?如果同意,AI音乐意味着什么?
MikeyShulman:我非常同意。音乐在文化中的位置和其他媒介很不一样。一个原因是,人们在音乐上的品味远比在其他媒介上更成熟。几乎每个人都有音乐品味,但不是每个人都有电影品味或文学品味。另一个原因是,音乐天然是一种更社交的媒介。想想看,去演唱会本质上是一件社交活动,虽然你主要是在看台上的表演者,但周围的人会让这件事被放大。这和去电影院看电影不太一样;一间满人的影院当然也有氛围,但它不像演唱会那样因为人群而被提升。
这和人类通过嘴和耳朵进行声音沟通有关。音乐比文字更早成为沟通方式,它更深地写在我们的本能里。至少相比很多其他形式,音乐是这样。
我当然有偏见,因为我很爱音乐。但有些人会假设,AI只会带来一个AI驱动的Spotify,让音乐去人性化、变得更糟。这显然不对。仅仅用AI做一个更好的Spotify并不是最有意思的事。
真正有意思的是,我们怎样不只是改变音乐在文化中的位置,而是提升它的位置。音乐还有一个很有趣的特点:因为它无处不在,所以很多时候反而变成背景。AI真正令人兴奋的地方,是它可以改变这一点,增强音乐在社会和文化中的感知方式,增强它作为社交媒介的使用方式。过去30年,音乐其实变得没那么社交了。
这就是我们所在的那个宇宙角落,也是我们特别兴奋的地方。
04 从听众到创作者:创作本身成为娱乐
SonyaHuang:从今天看你们自己,以及看你们的用户,你觉得人们更多是在创作音乐,还是消费音乐?或者两者都是?
MikeyShulman:这正是Suno最疯狂的地方。在Suno之前,基本上每个人都是音乐消费者。和全球80亿人口相比,真正制作音乐的人非常少,其他人都在消费,这当然没问题。但它会倾向于让人更被动,让音乐更不社交、更不个人化。Suno疯狂的地方在于,任意一天里,大约90%的用户都会创作某些东西。更难理解的是,他们大多并不是为了把作品拿到别的地方去做什么。
人们创作音乐,是因为创作本身带来的乐趣、享受和满足感。也就是说,创作才是娱乐的部分。这是一个巨大的转变。世界上的每个人都有创造力,创造会让人产生某种感受,而这种感受写在我们的本能里。我们基本上是在用技术,让每个人都能体验到这种温暖而满足的感觉。对我个人来说,这件事的灵感很大程度来自我最珍贵的一些回忆:和朋友一起做音乐。甚至不是上台演出,而是排练本身就非常好玩。一起做音乐会让人靠得很近,因为它让你有一种"我在创造"的满足感;这和你在某个App上无目的地刷一个小时之后的感觉完全不同。
SonyaHuang:我小时候是管弦乐团的孩子,所以可能没有你玩得那么酷。我当时拉的是小提琴。
MikeyShulman:你现在还拉吗?
SonyaHuang:不太拉了。我有绝对音感,但可以这么说,我现在肯定不是在演奏那12个音了。我自己听了都会受不了。不过我完全同意你刚才说的。也就是说,Suno像是一个自我表达加主动娱乐的平台,有点像游戏,也有点像Claude Code。
MikeyShulman:完全对。做音乐最神奇的地方在于,你在创作时会感觉很好、很满足、很享受,然后你还能去听自己做出来的东西。这就是我们说的"创造型娱乐":娱乐的部分就是创作本身,而不是为了把内容带到别处才创作。烹饪里也有类似的事情。人们喜欢做饭,即使餐厅可能能提供更好的一餐,因为做饭本身很有趣,吃自己做的东西也很有趣。
Claude Code或其他类似平台之所以特别,很大一部分也在这里:构建东西很有趣,使用自己构建的东西也很有趣。虽然我做出来的大多数东西显然不是为了部署到AWS、服务上百万用户,但我享受构建的过程,也享受使用自己构建出来的东西。我预测10年或20年后,会出现更多这样的创造型娱乐产品,因为这件事终于变得可能了。AI不只解锁了很多智能能力,它也让人在几乎任何领域里都能创造。
SonyaHuang:我猜你对"slop"这个词一定有看法。
MikeyShulman:我确实有看法。通常我的回答是,这个词被使用得太随意,几乎没有清晰含义。我昨天和我5岁的孩子一起做了两首歌。这算slop吗?如果意思是地球上99.999%的人都没兴趣听,那可能算。但它对我非常有意义。
不过这是个有意思的问题。音乐史上类似的事情发生过:当更多人开始能够生产某种东西时,人们会担心它淹没我们的耳朵、淹没所有平台。当人们开始在笔记本电脑上做音乐时,也出现过这种担忧。那时有很多13岁的孩子在卧室里做beat。快进到今天,这显然是一件好事。
音乐变多了,所谓"糟糕的音乐"也变多了,但伟大的音乐也更多了,新的音乐类型出现了,新的明星也出现了。我看不出为什么更多人再次开始做音乐,会和那次有什么本质不同。
SonyaHuang:我很喜欢这个。我们刚才聊了下限,不管是slop的下限,还是非slop的下限。那上限呢?你们看到用户用Suno做出过哪些最不可思议的东西?我知道你们现在也有一些登上榜单的热门作品了,可以聊聊吗?
MikeyShulman:确实有一些作品登上过榜单,也有人因此签下唱片合约。有人用Suno做出的单曲进入了排行榜,这很了不起。我会把它看作一种新创作者带着新视角出现,并且这种视角非常强烈地打动了人们。这当然意味着上限被抬高了。我最喜欢的例子是imone,那是一位诗人的艺名。她把自己十年来写下的美丽诗作变成音乐,找到了全新的声音,也找到了能与她的艺术共鸣的全新受众。
这太棒了。这本质上是人与人之间的连接,是世界上最个人化的东西之一。你去听那些音乐时,会发现它们非常私人化。最好的音乐永远需要人的引导,因为音乐没有标准答案。你喜欢一首歌,是因为它听起来如何,也因为是谁在传递它。我们会找到新的传递者,也会找到新的声音,而且这已经在发生。对我来说,这显然就是上限在上升。
还有一件很酷的事是,我知道现在有很多进入榜单的歌曲里有Suno的一小部分,它们并不完全是Suno生成的。对专业音乐人来说,Suno也是工作流里非常好的一个工具,而不是整个工作流。所以有些人把问题错误地说成"要么全是AI,要么完全没有AI"。现实是,未来绝大多数音乐都会有某种AI成分,就像今天绝大多数音乐都会经过Auto-Tune或数字制作一样。更多工具会让音乐更快向前推进,让我们更快找到新的声音。对我来说,这同样意味着上限变得更高。
05 版权、唱片公司与新的音乐体验
SonyaHuang:这很精彩。你们选择进入音乐行业,而这大概是律师最不建议进入的行业之一,因为一进去就会面对各种压力和反对。你们刚刚和Warner达成了一个相当有里程碑意义的和解与合作。你能多讲讲这件事,以及它对未来与现有专业音乐产业合作意味着什么吗?
MikeyShulman:当然。先退一步说,很多人错误地以为我们讨厌现有音乐产业,尤其讨厌唱片公司。也有人期待我说"唱片公司完蛋了"。这显然不对。唱片公司是世界上最重要的文化机构之一。它们理解音乐,也理解音乐文化;它们培养和放大那些能与数十亿人共鸣的明星。在我看来,如果未来出现两个音乐世界,一个是AI音乐世界,一个是非AI音乐世界,那会非常可惜。首先,这本来就没有意义,因为大多数音乐都会含有某种AI;其次,对终端用户也不好。用户不应该被迫在脑子里把这些东西分开,也不应该为了相似的使用方式去不同平台。
我最兴奋的是和Warner一起创造以前不可能存在的东西:打造一些产品,让粉丝能和自己喜欢的艺术家通过音乐互动,从而真正加深艺术家和粉丝之间的连接。这对所有人都是好事。艺术家可以更好地和粉丝互动;粉丝会感觉自己正在通过音乐与喜爱的艺术家产生连接;权利方也能获得清晰的商业化机会。更重要的是,这种东西直到大概现在才第一次变得可能。我真诚希望,未来我们能找到更多这样的合作机会,一起构建那些在今天之前不可能存在的东西。说白了,数字音乐体验已经25年基本没有变化了。我们只是一直在流媒体上听歌。音乐已经到了需要新创新、新格式的时候,而这正是我们要做的事。
SonyaHuang:我们什么时候能在Coachella看到Suno?
MikeyShulman:你可能已经看到了。它很可能已经出现在很多音乐里,也可能出现在很多backing track里。
SonyaHuang:我说的是更主舞台、更标志性的那种,比如消费者能参与其中的体验。
MikeyShulman:我希望在接下来一年里的某个时候,我们能看到一场真正互动式的演唱会,观众可以实际参与进来,和艺术家一起做音乐。我工作中最酷的一部分,就是当我给几百人甚至上千人的观众做demo时,能够和那么多人同时做一首歌。那是一个非常特别的时刻,几乎有点像宗教体验。很多宗教都会有大规模的吟唱和歌唱,为什么这种体验只能被限制在宗教场景里?为什么它不能发生在Coachella?那里的人本来就因为共同身处一个音乐节而非常兴奋。所以我真诚希望这会在接下来12个月里发生。
06 产品层、社交化与下一代音乐形态
SonyaHuang:我喜欢这个。我们已经聊了很多模型层,也聊了音乐创作作为文化体验。我还想聊应用层和产品构建,因为这也是你们非常创新的地方。你们是怎样思考应用层产品建设的?
MikeyShulman:这里可以讲很多。第一点是,现在面向消费者的创新其实还不够多。但普通消费者并不愿意忍受粗糙体验,因为他们不是为了工作使用它,而是为了娱乐使用它。很可能还是他们自己付费,而不是老板或公司付费。所以我们必须更重视真正交付给用户的体验。
另外坦白说,只靠模型本身到底有多少护城河并不清楚。我直接说吧,Google已经开始做音乐模型了。虽然今天我们的模型好得多,但他们是Google,他们可以一周七天都比我们花更多钱。他们完全可能在模型侧追上来。所以,持续投入产品、UI和UX,让用户不断感到惊喜,是被严重低估的事情。
我们公司的价值观之一其实是:我们就是一家音乐公司。在很多方面,我并不把自己看作一家技术公司。这是为了提醒大家,我们不是为了技术而做技术,而是为了让人们感到愉悦而构建技术。把这种想法注入文化,对公司非常有帮助,它让每个人都明白公司的真正目的。它会体现在很多细节里。从产品建设策略上说,这就是核心。
SonyaHuang:很棒。你们做过哪些消费产品决策,是你最自豪的,或者当时最逆向的?
MikeyShulman:有很多。一个我判断错的,是太快离开Discord。我原以为我们会在Discord上待很久,但我们在2023年底离开Discord,发布了一个功能还很薄的网页应用。结果5天内,90%的流量都迁移到了网页端。这是一个非常强烈的信号,说明我之前判断错了。
也许当时最大、最逆向的决策之一,是在很多人都在尝试音乐的时候,我们选择了一条更难的路。
我其实可以讲两个。第一个是,我们专注于"歌曲",而不只是背景音乐;我们专注于有歌词的音乐。因为一首歌是一个故事,它能以纯背景音乐做不到的方式抓住你。这件事当时也难得多,所以几乎没人真正做出来。我们把它做出来,确实形成了一种护城河。但回头看,它不只是因为我们做成了一件难事,而是因为人声会以某种特殊方式触动人,让产品比"为了好玩生成背景音乐"更令人愉悦。
另一个方向也类似:我们决定做完整歌曲。歌曲是一个故事,平均大概3到3分半钟,我们就围绕这个目标优化。早期大多数技术只能生成10到12秒的音乐片段。为此我们牺牲了很长一段时间的音质。我们的音频确实不够清晰,竞争对手的音频听起来都更干净。很多人听一秒Suno歌曲就会说:这听起来很糟,肯定是Suno。但我们还是决定押注完整歌曲:是的,它听起来未必惊艳,但它仍然能讲故事,而不是生成一段音质完美却只是背景的音乐。技术上说,这意味着选择autoregression而不是diffusion,但这个选择本质上是由产品驱动的。我们不是因为对autoregression有情感依恋才喜欢它,而是因为我们相信,做一首歌、讲一个故事,比做一段清晰但没有故事的音频更重要。
SonyaHuang:太酷了。Suno接下来会怎样?现在你们收入run rate已经到3亿美元左右,已经走得非常远了。下一步是什么?
MikeyShulman:还有很多事情要做。现在仍然非常早,大多数人甚至还不知道我们。产品也还很粗糙,还有很大的空间。接下来你会看到我们做几件事。
第一,是让音乐创作越来越成为一种社交互动。音乐本来就应该是社交的,所以你应该更频繁地和别人分享音乐,也应该更频繁地和别人一起创作。这既可以是同步的,也可以是异步的。也许有一天,我发给你的不是一首歌,而是一首歌的模板,你可以在上面明确地riff,然后再发回给我。你和我可以一起这样创作;你也可以和你喜欢的艺术家、用他们从未发布过的旧音乐做这样的事。
我们还会更进一步,让人们把自己更深地表达进音乐里。我们最近发布的一个大功能,是让你能使用自己的声音。当你在歌里听到自己的声音时,你会对它产生强得多的连接;更重要的是,当我把一首歌发给你,而你能在里面听到我的声音时,这首歌会比一个再好听但没有身份的声音更能打动你。因为人的耳朵对声音非常敏感。让音乐更社交,以及让人们把自己注入音乐,会是我们未来12个月的重点。
SonyaHuang:我很喜欢。那音乐视频呢?
MikeyShulman:我很爱音乐视频。现在音乐视频太少了。我是看MTV上的音乐视频长大的。音乐视频是在放大歌曲、讲述故事;这和给YouTube内容配一段背景音乐完全不同。我喜欢前者,对后者没那么感兴趣。因为我们想做的是把人们更深地拉进音乐,而不是让音乐永远只是背景。Suno现在已经有一个视频产品在beta里,用户非常喜欢。
SonyaHuang:这太酷了,我很期待。你觉得为什么现在AI领域的消费级创始人这么少?大家都在做企业服务。比如OpenAI关闭了Sora,我理解背后的原因,但为什么真正做消费产品的人这么少?
MikeyShulman:这个问题也许该我问你,你才是专业投资人。我的理论是:消费级产品更难做,而且眼前有很多很明显的企业问题可以解决。不过坦白说,竞争少一点我也挺开心。你觉得原因是什么?
SonyaHuang:AI如何自动化大量现有商业流程,是很容易看见的。但要想象AI会怎样渗入我们真正玩乐和创造的方式,需要真正的创造力。大多数人想到AI音乐,可能第一反应就是AI Spotify,而这听起来很糟。要看见你们正在做的事,确实需要很多创造力。
MikeyShulman:谢谢。我们更受鼓舞、也更有动力去做那些直到今天才成为可能的事情,而不是只去自动化或加速已经存在的东西。当然,自动化和加速已有流程也有很大的商业价值。但某种意义上,做以前根本做不到的事,就是更有趣。
SonyaHuang:是啊。等所有工作都由机器人完成之后,我们到底要用时间做什么呢?
MikeyShulman:你不会想一直刷手机。你会想要创造,想要有产出,想要感到满足。
SonyaHuang:完全是这样。Mikey,谢谢你分享Suno的旅程。看着你带领一家音乐公司和主动娱乐娱乐平台,去定义AI世界里的创作者层意味着什么,真的非常精彩。从Harrison和你们早期Discord的那些日子开始看到今天,我一直很佩服你和Suno所做的一切。
MikeyShulman:非常感谢,这次聊天很有意思。
原视频:Suno's Mikey Shulman:Everyone Can Make Music Now
https://www.youtube.com/watch?v=Jq3BIGz4vXQ
编译:Jianyu Wang
请注意,本文编译自文末载明的原始链接,不代表ZPotentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
ZPotentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。


登录后才可以发布评论哦
打开小程序可以发布评论哦