红杉美国对话Suno创始人:当90%用户都在创作时,音乐平台的本质早已不是倾听,而是游戏

来源：Z Potentials

图片来源：

SequoiaCapital

Z Highlights

Mikey Shulman，Suno创始人兼CEO，曾在哈佛攻读物理学博士，研究方向涉及量子计算与固态自旋；Sonya Huang，Sequoia Capital合伙人，长期关注AI原生应用与消费级产品。2026年5月，Mikey Shulman在Sequoia Capital节目中接受Sonya Huang访谈，围绕Suno的模型路线、早期创业、AI音乐创作、消费者产品、版权合作以及音乐平台的未来展开讨论。

01 抛开乐理：从声音本身重新建模音乐

MikeyShulman：在西方音乐里，音高通常被归纳为12个。如果你一开始就告诉模型"音乐只有12个音"，它最终也只会生成这12个音，你会永远被这个框架限制住。

所以对我们来说，关键就是把关于音乐的既有知识先全部放下，从零开始。音乐在模型眼里只是一段声波：每秒采样48000次，是连续的float32数值。我们要做的，是弄清楚如何直接建模这段声音。早期很多突破都发生在这里。一旦跨过去，我们发现它会变成一台真正通用的音乐生成机器，你唯一受到的限制，就是你能把自己的想象描述到什么程度。

SonyaHuang：很高兴欢迎Mikey Shulman。Mikey是Suno的创始人兼CEO。Suno正在打造一家音乐公司，或者说一个创造型娱乐平台，也是我见过最有新意的AI消费级应用之一。我非常期待和你聊聊这段创业旅程，以及Suno接下来要去哪里。谢谢你今天来到这里。

MikeyShulman：谢谢邀请我来，我很兴奋。

SonyaHuang：太好了。我想先从你的背景聊起，因为这条路径非常出人意料。你从Harvard的物理学博士、量子计算和固态自旋研究，走到了打造全球最大的AI音乐公司。对你来说，是什么洞察把这两件事连在了一起？

MikeyShulman：坦白说，我也不确定该怎么解释。单看履历，我大概并不像一个应该去做消费娱乐公司的人。但很多物理背景的人后来都进入了AI，就像30年前很多物理背景的人进入量化交易一样。说实话，我只是一个还可以的物理学家，比我强的物理学家有很多，包括我的一位联合创始人。我真正学到的是，当你站在两个原本很少交汇的领域之间，往往会有巨大的机会。它可以是音乐和技术，也可以是量子力学和低温微波工程，或者是任何其他看似不相邻的组合。

SonyaHuang：我和你是在Suno很早期的时候认识的。我们共同的朋友Harrison Chase是Suno Discord最早的一批用户之一，他在你们的Discord里玩得太开心了，不停地做歌。也许你可以讲讲Suno早期是什么样的？它是怎么走到一起的？你们一开始就是想做一家音乐公司吗？

MikeyShulman：最初我们其实觉得这件事太难了。你得把时间倒回到ChatGPT爆发之前。我们当时做过一些粗略估算，知道自己喜欢音频，但那些估算告诉我们，要生成好音乐，在算力、模型规模和能力上都还差几个数量级。音乐或者声音本身不像文本那样是离散的token，而是非常难处理的连续信号。所以我们最开始做的并不是生成音频，而是用类似技术去理解音频。幸运的是，我们很早就取得了一些关键突破，然后意识到：原来我们真的可以做音乐。

SonyaHuang：你的数学应该很好。当时那种餐巾纸背面的估算，错在了哪里？

MikeyShulman：数学本身没有错。真正改变的是我们找到了一些技术突破，证明并不需要那么多算力。你可以把它理解成：我们找到了非常高效地压缩音频的方法，而且效果远远超出了预期。所以那是一次很愉快的"算错了"。并不是所有算错的时刻都这么舒服。当然，必须说清楚，一开始生成出来的音乐很糟糕，但我们还是会玩到很晚不想睡。

SonyaHuang：它其实挺好玩的，Harrison应该算最早的10个用户之一。他当时认为它已经很不错了。

MikeyShulman：在我们把它放到Discord之前，音乐确实非常糟糕。当时只能生成大概12.5秒的片段，而且不一定会按你要求的歌词去唱。但我们自己玩得特别开心，所以想看看其他人会不会也觉得有趣。我们借鉴了Midjourney的做法：做一个Discord bot很容易，先放出去看看大家喜不喜欢。结果很多人真的喜欢，这对我们是一个很强的验证。那时也有很多人劝我们不要做音乐公司，因为这不是一个容易做的行业。

语音市场很大，做语音技术也有很多很好的商业场景。但如果你会因为某个东西一直玩到深夜、不想睡觉，那就是一个很强的信号，说明这才是你真正该做的事。所以我们就做了。

SonyaHuang：我很喜欢这个。你自己是音乐人吗？

MikeyShulman：是的，我几乎每天都会演奏。我从小弹很多钢琴，大概12岁左右开始弹贝斯，后来花在贝斯上的时间更多。

SonyaHuang：所以这也是一个很个人、很有热情的出发点，太好了。

MikeyShulman：如果从后来回看，确实有这么一段真实历史：我们上一家公司时，常在一位联合创始人的地下室里jam。我们在那里玩得很开心。不过那并不是我们创办Suno的原因。再说一次，我们当时其实觉得这件事太难了，只是它真的很好玩。

SonyaHuang：你说的是在Kensho的时候？

MikeyShulman：对，在Kensho，我也是在那里认识了很棒的Harrison Chase。

SonyaHuang：Kensho出来的人真的很厉害。除了Harrison，还有Daniel Nadler、Sam Whitmore，也包括你，人数不少。

MikeyShulman：确实有很多人。我真心觉得这很大程度上要归功于Daniel。Daniel是一个特别好的例子，说明人才密度能给一家公司带来什么。他招到很多背景并不线性的人，而且团队整体很年轻；但他很擅长发现人才，也很擅长说服他们加入。

02 从提示词到歌曲：Suno如何把想象变成声音

SonyaHuang：好，那我们具体走一遍流程。比如有人输入一句提示词："一首关于公路旅行的欢快90年代hiphop歌曲。"这个prompt进入系统之后，会发生什么？模型到底做了什么，才能把一首听起来相当特别的歌返回给用户？

MikeyShulman：某种意义上，这个过程其实很直接。像这样的prompt，首先要弄清楚这首歌的歌词是什么。我们会用各种LLM来生成歌词。这里的线索是"公路旅行"，所以系统会判断这趟公路旅行应该讲什么故事。它很可能会猜错，因为用户并没有给足够多的信息，但这没关系。

然后你又说了"90年代hiphop"，我们会把这个描述扩展成一组模型能理解的线索：这是什么流派、什么风格。接着把歌词和风格放在一起，我们的模型会接收这些信息并直接生成声音。

真正惊人的地方在于，模型并不知道这里有"人声"和"乐器"，也不知道具体有哪些乐器。我们很早就意识到，如果给模型太多音乐知识，它反而会被不必要地限制住。所以我们把一切都当作声音来建模。这让问题变得很难，但最终也让系统变得强大。

具体一点说，西方音乐通常有12个音。如果你告诉模型音乐只有12个音，它就只会生成这12个音，你会永远被限制。如果你告诉模型世界上只有200种乐器，它也只能生成这些声音，你就不可能用Suno得到下一个Skrillex。所以我们决定把关于音乐的既有知识先放下，从零开始。音乐就是声波，每秒采样48000次，是连续的float32数值。我们要做的是学会建模它。早期很多突破都在这里。一旦做到了，你就只受限于自己能够描述什么、想象什么。

SonyaHuang：太酷了。你们从第一性原理学习音乐时，有没有发现模型其实又重新发现了既有的音乐流派、12个音这些东西？还是说，你们看到了另一套不同的能力自己涌现出来？

MikeyShulman：最神奇的是，我们确实会看到一些以前想不到的新东西涌现出来。很多时候，它表现为把本来不该放在一起的流派融合在一起。比如带有sitar的trap，或者带808鼓机的country。说到底，这是在让人们做出脑子里已经存在的东西，而如果没有这样的技术，这些东西要么不可能，要么会非常难。我们也会看到微分音音乐。去看用户做出的各种疯狂作品是一件很有启发的事：其中很多听起来像你熟悉的流派，也有很多听起来非常陌生、奇异，但又很可爱。

SonyaHuang：很棒。你们有没有发现模型在某些流派上更擅长，在某些流派上还不够好？

MikeyShulman：当然有。我尽量不直接用"好"和"坏"去评价音乐。就技术层面来说，我们可以说采样率、bitdepth这些指标，但如果非要概括，我们现在很擅长country，也很擅长pop。你可以这样理解：有些流派相对更公式化一些，所以模型可能更容易做好。不过我也隐约觉得，在这些流派里，我们既提高了下限，也提高了上限；而在我们还没那么擅长的流派里，下限还没被提高，所以会生成很多糟糕的音乐，但上限也被推高了。如果你愿意试得足够久，还是会找到很惊人的东西。

SonyaHuang：Suno V5的质量看起来是一次真正的跃迁。这样的跃迁通常是怎么发生的？

MikeyShulman：这种跃迁什么时候发生其实很难预测，因为它在研究投入上并不是线性的，甚至和我们测试里显示的模型提升也不是线性关系。举个例子，我们可以测量一个模型相比另一个模型的偏好度，也许是10%或15%的偏好提升。但当你真正发布之后，用户有多喜欢、有多愿意使用，或者产品增长多少，并不一定和这个偏好信号强相关。

原因在于音乐本身很混乱，里面有太多因素共同作用。

如果退远一点看，我们有一条相当激进的研究路线图。某种奇怪的意义上，我们一直在做同一件事。我们大致知道V6、V7需要具备什么能力，也知道模型还有很多可以改进的地方。所以所谓版本发布，有时候只是人为划一条线：这部分叫5.5，之后的改进进入下一代模型。这样做也是为了保持稳定的发布节奏。

我们最不希望发生的是，两年都不发布任何东西，只是说自己要做一个"拯救人类的音乐模型"，然后两年后才拿出来。在那之前什么都不做，这不是我们想要的。

03 音乐不是纯规模问题：偏好、研究与用户反馈

SonyaHuang：完全理解。你觉得每一次改进里，有多少只是来自规模化，比如算力、数据、人类偏好数据的扩大？又有多少来自你们真正新的研究？

MikeyShulman：音乐真的不是一个单纯靠规模解决的问题。出于很多原因，我们的模型并不大。人们常常把自己从LLM世界里学到的经验直接套到音乐上：在LLM里，模型很大，规模化非常有用。但我脑子里的图景是，LLM世界有很多benchmark。你可以争论哪些benchmark有问题、哪些更好，但它们确实存在，而扩大规模是一种相对有效的爬榜方式。音乐里没有标准答案，也没有这样的benchmark。所以规模对解决问题的帮助没有那么直接。把模型对齐到人的创意品味，是一个更混乱的问题。你和我不会在每一首歌上达成一致，甚至你和我也不会总是认同同一种审美。

SonyaHuang：那我就完全听你的。

MikeyShulman：我可不确定你真的应该这么做。模型不那么大，反而让我们能更快地把音乐返回给用户，而这对好的用户体验非常重要。所以很多进展来自研究和偏好数据。我们收集偏好数据，用它来把模型对齐到用户真正喜欢的东西。一个被低估的点是，偏好数据本身能极大地帮助研究。如果没有我们现在拥有的偏好数据规模，很多正在使用的技术甚至无法被开发出来。所以这里存在很强的正循环：产品被越多人使用，产品本身就越能变好。

SonyaHuang：很有意思。相比文本模型，你们是不是能更直接、更强地利用人类偏好数据？因为文本模型会担心sycophancy之类的问题，而音乐里这个挑战应该小很多。

MikeyShulman：完全是这样。所以我们的优势很大一部分来自能够理解这些偏好、围绕它们做研究，然后把这种反馈通过RL再注入模型。

SonyaHuang：太好了。我想稍微换个话题，聊音乐作为消费现象这件事。你开头提到"消费级创造娱乐平台"，我想深入理解它是什么意思。音乐一直是一种文化和社交现象：我喜欢一首歌，把它发给朋友；它像一种稀缺资源，我们会因为喜欢同一首歌而产生连接，会一起听mixtape、一起听歌。对我来说，音乐一直是一种共享的文化体验。你同意吗？如果同意，AI音乐意味着什么？

MikeyShulman：我非常同意。音乐在文化中的位置和其他媒介很不一样。一个原因是，人们在音乐上的品味远比在其他媒介上更成熟。几乎每个人都有音乐品味，但不是每个人都有电影品味或文学品味。另一个原因是，音乐天然是一种更社交的媒介。想想看，去演唱会本质上是一件社交活动，虽然你主要是在看台上的表演者，但周围的人会让这件事被放大。这和去电影院看电影不太一样；一间满人的影院当然也有氛围，但它不像演唱会那样因为人群而被提升。

这和人类通过嘴和耳朵进行声音沟通有关。音乐比文字更早成为沟通方式，它更深地写在我们的本能里。至少相比很多其他形式，音乐是这样。

我当然有偏见，因为我很爱音乐。但有些人会假设，AI只会带来一个AI驱动的Spotify，让音乐去人性化、变得更糟。这显然不对。仅仅用AI做一个更好的Spotify并不是最有意思的事。

真正有意思的是，我们怎样不只是改变音乐在文化中的位置，而是提升它的位置。音乐还有一个很有趣的特点：因为它无处不在，所以很多时候反而变成背景。AI真正令人兴奋的地方，是它可以改变这一点，增强音乐在社会和文化中的感知方式，增强它作为社交媒介的使用方式。过去30年，音乐其实变得没那么社交了。

这就是我们所在的那个宇宙角落，也是我们特别兴奋的地方。

04 从听众到创作者：创作本身成为娱乐

SonyaHuang：从今天看你们自己，以及看你们的用户，你觉得人们更多是在创作音乐，还是消费音乐？或者两者都是？

MikeyShulman：这正是Suno最疯狂的地方。在Suno之前，基本上每个人都是音乐消费者。和全球80亿人口相比，真正制作音乐的人非常少，其他人都在消费，这当然没问题。但它会倾向于让人更被动，让音乐更不社交、更不个人化。Suno疯狂的地方在于，任意一天里，大约90%的用户都会创作某些东西。更难理解的是，他们大多并不是为了把作品拿到别的地方去做什么。

人们创作音乐，是因为创作本身带来的乐趣、享受和满足感。也就是说，创作才是娱乐的部分。这是一个巨大的转变。世界上的每个人都有创造力，创造会让人产生某种感受，而这种感受写在我们的本能里。我们基本上是在用技术，让每个人都能体验到这种温暖而满足的感觉。对我个人来说，这件事的灵感很大程度来自我最珍贵的一些回忆：和朋友一起做音乐。甚至不是上台演出，而是排练本身就非常好玩。一起做音乐会让人靠得很近，因为它让你有一种"我在创造"的满足感；这和你在某个App上无目的地刷一个小时之后的感觉完全不同。

SonyaHuang：我小时候是管弦乐团的孩子，所以可能没有你玩得那么酷。我当时拉的是小提琴。

MikeyShulman：你现在还拉吗？

SonyaHuang：不太拉了。我有绝对音感，但可以这么说，我现在肯定不是在演奏那12个音了。我自己听了都会受不了。不过我完全同意你刚才说的。也就是说，Suno像是一个自我表达加主动娱乐的平台，有点像游戏，也有点像Claude Code。

MikeyShulman：完全对。做音乐最神奇的地方在于，你在创作时会感觉很好、很满足、很享受，然后你还能去听自己做出来的东西。这就是我们说的"创造型娱乐"：娱乐的部分就是创作本身，而不是为了把内容带到别处才创作。烹饪里也有类似的事情。人们喜欢做饭，即使餐厅可能能提供更好的一餐，因为做饭本身很有趣，吃自己做的东西也很有趣。

Claude Code或其他类似平台之所以特别，很大一部分也在这里：构建东西很有趣，使用自己构建的东西也很有趣。虽然我做出来的大多数东西显然不是为了部署到AWS、服务上百万用户，但我享受构建的过程，也享受使用自己构建出来的东西。我预测10年或20年后，会出现更多这样的创造型娱乐产品，因为这件事终于变得可能了。AI不只解锁了很多智能能力，它也让人在几乎任何领域里都能创造。

SonyaHuang：我猜你对"slop"这个词一定有看法。

MikeyShulman：我确实有看法。通常我的回答是，这个词被使用得太随意，几乎没有清晰含义。我昨天和我5岁的孩子一起做了两首歌。这算slop吗？如果意思是地球上99.999%的人都没兴趣听，那可能算。但它对我非常有意义。

不过这是个有意思的问题。音乐史上类似的事情发生过：当更多人开始能够生产某种东西时，人们会担心它淹没我们的耳朵、淹没所有平台。当人们开始在笔记本电脑上做音乐时，也出现过这种担忧。那时有很多13岁的孩子在卧室里做beat。快进到今天，这显然是一件好事。

音乐变多了，所谓"糟糕的音乐"也变多了，但伟大的音乐也更多了，新的音乐类型出现了，新的明星也出现了。我看不出为什么更多人再次开始做音乐，会和那次有什么本质不同。

SonyaHuang：我很喜欢这个。我们刚才聊了下限，不管是slop的下限，还是非slop的下限。那上限呢？你们看到用户用Suno做出过哪些最不可思议的东西？我知道你们现在也有一些登上榜单的热门作品了，可以聊聊吗？

MikeyShulman：确实有一些作品登上过榜单，也有人因此签下唱片合约。有人用Suno做出的单曲进入了排行榜，这很了不起。我会把它看作一种新创作者带着新视角出现，并且这种视角非常强烈地打动了人们。这当然意味着上限被抬高了。我最喜欢的例子是imone，那是一位诗人的艺名。她把自己十年来写下的美丽诗作变成音乐，找到了全新的声音，也找到了能与她的艺术共鸣的全新受众。

这太棒了。这本质上是人与人之间的连接，是世界上最个人化的东西之一。你去听那些音乐时，会发现它们非常私人化。最好的音乐永远需要人的引导，因为音乐没有标准答案。你喜欢一首歌，是因为它听起来如何，也因为是谁在传递它。我们会找到新的传递者，也会找到新的声音，而且这已经在发生。对我来说，这显然就是上限在上升。

还有一件很酷的事是，我知道现在有很多进入榜单的歌曲里有Suno的一小部分，它们并不完全是Suno生成的。对专业音乐人来说，Suno也是工作流里非常好的一个工具，而不是整个工作流。所以有些人把问题错误地说成"要么全是AI，要么完全没有AI"。现实是，未来绝大多数音乐都会有某种AI成分，就像今天绝大多数音乐都会经过Auto-Tune或数字制作一样。更多工具会让音乐更快向前推进，让我们更快找到新的声音。对我来说，这同样意味着上限变得更高。

05 版权、唱片公司与新的音乐体验

SonyaHuang：这很精彩。你们选择进入音乐行业，而这大概是律师最不建议进入的行业之一，因为一进去就会面对各种压力和反对。你们刚刚和Warner达成了一个相当有里程碑意义的和解与合作。你能多讲讲这件事，以及它对未来与现有专业音乐产业合作意味着什么吗？

MikeyShulman：当然。先退一步说，很多人错误地以为我们讨厌现有音乐产业，尤其讨厌唱片公司。也有人期待我说"唱片公司完蛋了"。这显然不对。唱片公司是世界上最重要的文化机构之一。它们理解音乐，也理解音乐文化；它们培养和放大那些能与数十亿人共鸣的明星。在我看来，如果未来出现两个音乐世界，一个是AI音乐世界，一个是非AI音乐世界，那会非常可惜。首先，这本来就没有意义，因为大多数音乐都会含有某种AI；其次，对终端用户也不好。用户不应该被迫在脑子里把这些东西分开，也不应该为了相似的使用方式去不同平台。

我最兴奋的是和Warner一起创造以前不可能存在的东西：打造一些产品，让粉丝能和自己喜欢的艺术家通过音乐互动，从而真正加深艺术家和粉丝之间的连接。这对所有人都是好事。艺术家可以更好地和粉丝互动；粉丝会感觉自己正在通过音乐与喜爱的艺术家产生连接；权利方也能获得清晰的商业化机会。更重要的是，这种东西直到大概现在才第一次变得可能。我真诚希望，未来我们能找到更多这样的合作机会，一起构建那些在今天之前不可能存在的东西。说白了，数字音乐体验已经25年基本没有变化了。我们只是一直在流媒体上听歌。音乐已经到了需要新创新、新格式的时候，而这正是我们要做的事。

SonyaHuang：我们什么时候能在Coachella看到Suno？

MikeyShulman：你可能已经看到了。它很可能已经出现在很多音乐里，也可能出现在很多backing track里。

SonyaHuang：我说的是更主舞台、更标志性的那种，比如消费者能参与其中的体验。

MikeyShulman：我希望在接下来一年里的某个时候，我们能看到一场真正互动式的演唱会，观众可以实际参与进来，和艺术家一起做音乐。我工作中最酷的一部分，就是当我给几百人甚至上千人的观众做demo时，能够和那么多人同时做一首歌。那是一个非常特别的时刻，几乎有点像宗教体验。很多宗教都会有大规模的吟唱和歌唱，为什么这种体验只能被限制在宗教场景里？为什么它不能发生在Coachella？那里的人本来就因为共同身处一个音乐节而非常兴奋。所以我真诚希望这会在接下来12个月里发生。

06 产品层、社交化与下一代音乐形态

SonyaHuang：我喜欢这个。我们已经聊了很多模型层，也聊了音乐创作作为文化体验。我还想聊应用层和产品构建，因为这也是你们非常创新的地方。你们是怎样思考应用层产品建设的？

MikeyShulman：这里可以讲很多。第一点是，现在面向消费者的创新其实还不够多。但普通消费者并不愿意忍受粗糙体验，因为他们不是为了工作使用它，而是为了娱乐使用它。很可能还是他们自己付费，而不是老板或公司付费。所以我们必须更重视真正交付给用户的体验。

另外坦白说，只靠模型本身到底有多少护城河并不清楚。我直接说吧，Google已经开始做音乐模型了。虽然今天我们的模型好得多，但他们是Google，他们可以一周七天都比我们花更多钱。他们完全可能在模型侧追上来。所以，持续投入产品、UI和UX，让用户不断感到惊喜，是被严重低估的事情。

我们公司的价值观之一其实是：我们就是一家音乐公司。在很多方面，我并不把自己看作一家技术公司。这是为了提醒大家，我们不是为了技术而做技术，而是为了让人们感到愉悦而构建技术。把这种想法注入文化，对公司非常有帮助，它让每个人都明白公司的真正目的。它会体现在很多细节里。从产品建设策略上说，这就是核心。

SonyaHuang：很棒。你们做过哪些消费产品决策，是你最自豪的，或者当时最逆向的？

MikeyShulman：有很多。一个我判断错的，是太快离开Discord。我原以为我们会在Discord上待很久，但我们在2023年底离开Discord，发布了一个功能还很薄的网页应用。结果5天内，90%的流量都迁移到了网页端。这是一个非常强烈的信号，说明我之前判断错了。

也许当时最大、最逆向的决策之一，是在很多人都在尝试音乐的时候，我们选择了一条更难的路。

我其实可以讲两个。第一个是，我们专注于"歌曲"，而不只是背景音乐；我们专注于有歌词的音乐。因为一首歌是一个故事，它能以纯背景音乐做不到的方式抓住你。这件事当时也难得多，所以几乎没人真正做出来。我们把它做出来，确实形成了一种护城河。但回头看，它不只是因为我们做成了一件难事，而是因为人声会以某种特殊方式触动人，让产品比"为了好玩生成背景音乐"更令人愉悦。

另一个方向也类似：我们决定做完整歌曲。歌曲是一个故事，平均大概3到3分半钟，我们就围绕这个目标优化。早期大多数技术只能生成10到12秒的音乐片段。为此我们牺牲了很长一段时间的音质。我们的音频确实不够清晰，竞争对手的音频听起来都更干净。很多人听一秒Suno歌曲就会说：这听起来很糟，肯定是Suno。但我们还是决定押注完整歌曲：是的，它听起来未必惊艳，但它仍然能讲故事，而不是生成一段音质完美却只是背景的音乐。技术上说，这意味着选择autoregression而不是diffusion，但这个选择本质上是由产品驱动的。我们不是因为对autoregression有情感依恋才喜欢它，而是因为我们相信，做一首歌、讲一个故事，比做一段清晰但没有故事的音频更重要。

SonyaHuang：太酷了。Suno接下来会怎样？现在你们收入run rate已经到3亿美元左右，已经走得非常远了。下一步是什么？

MikeyShulman：还有很多事情要做。现在仍然非常早，大多数人甚至还不知道我们。产品也还很粗糙，还有很大的空间。接下来你会看到我们做几件事。

第一，是让音乐创作越来越成为一种社交互动。音乐本来就应该是社交的，所以你应该更频繁地和别人分享音乐，也应该更频繁地和别人一起创作。这既可以是同步的，也可以是异步的。也许有一天，我发给你的不是一首歌，而是一首歌的模板，你可以在上面明确地riff，然后再发回给我。你和我可以一起这样创作；你也可以和你喜欢的艺术家、用他们从未发布过的旧音乐做这样的事。

我们还会更进一步，让人们把自己更深地表达进音乐里。我们最近发布的一个大功能，是让你能使用自己的声音。当你在歌里听到自己的声音时，你会对它产生强得多的连接；更重要的是，当我把一首歌发给你，而你能在里面听到我的声音时，这首歌会比一个再好听但没有身份的声音更能打动你。因为人的耳朵对声音非常敏感。让音乐更社交，以及让人们把自己注入音乐，会是我们未来12个月的重点。

SonyaHuang：我很喜欢。那音乐视频呢？

MikeyShulman：我很爱音乐视频。现在音乐视频太少了。我是看MTV上的音乐视频长大的。音乐视频是在放大歌曲、讲述故事；这和给YouTube内容配一段背景音乐完全不同。我喜欢前者，对后者没那么感兴趣。因为我们想做的是把人们更深地拉进音乐，而不是让音乐永远只是背景。Suno现在已经有一个视频产品在beta里，用户非常喜欢。

SonyaHuang：这太酷了，我很期待。你觉得为什么现在AI领域的消费级创始人这么少？大家都在做企业服务。比如OpenAI关闭了Sora，我理解背后的原因，但为什么真正做消费产品的人这么少？

MikeyShulman：这个问题也许该我问你，你才是专业投资人。我的理论是：消费级产品更难做，而且眼前有很多很明显的企业问题可以解决。不过坦白说，竞争少一点我也挺开心。你觉得原因是什么？

SonyaHuang：AI如何自动化大量现有商业流程，是很容易看见的。但要想象AI会怎样渗入我们真正玩乐和创造的方式，需要真正的创造力。大多数人想到AI音乐，可能第一反应就是AI Spotify，而这听起来很糟。要看见你们正在做的事，确实需要很多创造力。

MikeyShulman：谢谢。我们更受鼓舞、也更有动力去做那些直到今天才成为可能的事情，而不是只去自动化或加速已经存在的东西。当然，自动化和加速已有流程也有很大的商业价值。但某种意义上，做以前根本做不到的事，就是更有趣。

SonyaHuang：是啊。等所有工作都由机器人完成之后，我们到底要用时间做什么呢？

MikeyShulman：你不会想一直刷手机。你会想要创造，想要有产出，想要感到满足。

SonyaHuang：完全是这样。Mikey，谢谢你分享Suno的旅程。看着你带领一家音乐公司和主动娱乐娱乐平台，去定义AI世界里的创作者层意味着什么，真的非常精彩。从Harrison和你们早期Discord的那些日子开始看到今天，我一直很佩服你和Suno所做的一切。

MikeyShulman：非常感谢，这次聊天很有意思。

原视频：Suno's Mikey Shulman:Everyone Can Make Music Now

https://www.youtube.com/watch?v=Jq3BIGz4vXQ

编译：Jianyu Wang

请注意，本文编译自文末载明的原始链接，不代表ZPotentials立场。如果您对本文有任何想法或见解，欢迎在评论区留言互动探讨。

ZPotentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群，与我们共同分享、学习、成长。

特别声明：以上内容仅代表作者本人的观点或立场，不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的，请于上述内容发布后的30天内进行。

宙世代

一起剪

相关标签