混沌大学 3小时前
97年文科生干出全球最强AI 3D大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

他是SIGGRAPH 50年历史上第一位、也是迄今唯一一位登上大会主题演讲舞台的中国人,与英伟达黄仁勋等行业领袖同台。

他是MiniMax 001号员工,正当大语言模型如火如荼之时,转身闯进AI 3D无人区、把三维世界重新生成一遍的冒险者。

他是只用两年就带领团队完成三轮(每轮都是数亿元)融资、估值稳居全球AI 3D大模型公司之首的创业者。

他要做的事,听起来很疯狂但是很美好——3D版的TikTok。

他是宋亚宸(Simon),VAST创始人兼CEO,他要打造世界最领先的AI 3D大模型。

这位1997年出生的年轻创业者,不到两年,带着团队把3D 大模型Tripo系列从技术原型,一路推到千万级用户手中:8秒图文生3D、率先验证3D Scaling Law、参数直上200亿,把3D生成式AI直接推入"IMAX 时代"。

技术猛进的同时,商业化也跑得一样狠。截至2025年8月,VAST的年度经常性收入(ARR)达到1200万美元——行业领先。500万左右的专业用户,其中80%多来自海外。TO B端,有4万多家中小企业,约700多家大企业在使用他们的工具。

但所有这些"硬指标",都不是这个人最迷人的地方。

真正的反差在于——他用最硬核的科技,思考的却是最古老的命题,如何让人类获得最大化幸福的总和。他获得美国约翰霍普金斯大学国际关系学和经济学双学士学位,同时热衷于研究神学。

这也是为什么,在最容易"顺势而飞"的大模型赛道,他偏偏转头去做一个更难、几乎没人敢做的事情:让AI不只生成视频,而是重新生成"三维世界"。

善友教授说:"我的好朋友绿洲资本张津剑跟我提起他时,⽤了⼀个词,叫'⼩怪兽'。他说你一定要⻅⻅这个孩⼦,他⾝上有种⾮常罕⻅的⽣命⼒。所以今天我把他邀请到了我的播客⾥。"

这个人,是"理念型创业者",是那种你看一眼,就知道他会去把世界重新造一遍的人。在这场对话中,你会听见:

他对AI 3D的透彻理解,属于业内罕见的精彩分析

他如何看待技术与"人的体验"的本质关系

他宏大的愿景,每个人都能实时交互地活在"自己最爱的世界"

如果你想认识一个真正"以商入道"的年轻创始人,如果你想真正看见一个年轻创业者如何跨学科地进化、跃迁、觉醒——这期对谈,你一定要完整收听,知识密度极高。

欢迎点击收听完整版,一起走进这只纯粹而强大的"小怪兽"的世界。

李善友:我是在两年前了解到你的。张津剑说,我们应该陪伴一些"小怪兽"成长。他说,有些年轻人拥有自己独立的想法,始终积极向上,但在他们所处的环境中却感到孤独。他的话深深触动了我,也就是在那个时候,我就知道了你。你先简单介绍一下你创业的经历。

宋亚宸:我在2018年加入商汤科技,当时我是协助徐立做一些工作(徐立是商汤联合创始人、CEO,也是一位计算机视觉科学家)。选择AI加动画这个领域,一方面是因为我个人对游戏和动画非常感兴趣,觉得这个领域很有意思;另一方面,我在做战略分析时发现了一个核心问题。大家通常认为动画、电影、游戏等是创意产业,创意产业的逻辑很简单,谁最聪明、谁最有创意,谁就能脱颖而出。然而,我发现无论是中国还是全球的动画产业,实际上都是一个劳动密集型产业,更像是"拧螺丝"的工作。

如果你去招聘动画师,收到的简历大多来自八大美院的毕业生。这些美院毕业的学生本应极具创意,但他们在工作中往往要从事一些重复性的工作,比如把模型转化为3D,或者逐帧调整动画,让角色能够跑步。这种工作就像是在拧螺丝,非常机械和重复。

这种模式使得动画产业无法真正成为创意产业。因为那些有创意的人在长期从事重复性工作后,创意逐渐被消磨殆尽。等到他们熬出头成为制作人时,创意已经所剩无几。这就是为什么中国很难产出优质动画内容的原因之一。

我认为动画产业不应该是一个劳动密集型产业,而应该是一个真正的创意产业。基于这个观点,我们面临的一个重要问题是:如何让这个产业真正回归创意本质,并实现产业升级?答案是加速引入AI技术。因为AI能够释放那些重复性的工作,让创意人才能够专注于创意本身,从而推动整个产业的创新和发展。

李善友:让AI去处理那些重复的、劳动密集型的任务,而让富有创意的人专注于创意本身。

宋亚宸:是的。这是AI在当时的意义所在。因此,我们很早就开始讨论AIGC(AI Generated Content)的概念。

李善友:你做这件事情是哪年?

宋亚宸:应该是19年的下半年。我们发现了一个问题:当时的AI技术尚未能很好地解决这些问题。

具体来说,我们在为许多中国动画公司提供服务时,遇到了两方面的挑战。一方面,中国动画产业的商业化程度较低,这些公司本身资金有限,因此我们从他们那里也难以获得足够的收入。另一方面,当时的技术还不够成熟,不足以帮助他们真正释放创意,解决重复性劳动的问题。

尽管如此,我意识到,即使技术还不够完善,我们也可以先将AI技术应用起来。于是,我开始亲自担任导演、编剧,负责内容创作和IP设计等工作。我们从零开始,逐步打造了从几十万粉丝到几百万粉丝的各类IP。这一过程对我来说非常有意义,因为我本身就热爱内容创作和创意工作。这些新的IP创意内容主要以短视频的形式呈现。

当时,徐立非常支持我的想法,我们还组建了一个大约四五十人的动画团队,试图在公司内部全流程地应用AI技术来制作动画。比较遗憾的是,盈利空间有限,这让我们不得不重新考虑方向。

于是,我们开始寻找更具盈利潜力的领域。当时,游戏行业正处于爆发期,像《三国志战略版》和《原神》等游戏都非常火爆。尤其是当游戏与元宇宙、AI等概念结合时,行业发展迅猛。

基于这种市场认知,我们将现有的AI技术整合成游戏解决方案,开始在游戏行业推广AI技术。后来,随着元宇宙概念的兴起,业务规模不断扩大。

不过,我在2021年六七月份离开了商汤,随后正式参与创立了Minimax。2022年年底,我离开了Minimax。离开的重要原因之一是,我认为当时行业盲目跟风投入AGI或语言大模型,这是一种情绪化的产物,大家都在试图成为下一个OpenAI,但这种跟风并不理性。

此外,我还观察到从3D到视频、图片再到文字,信息密度逐渐降低,这是一个信息逐渐失真的压缩过程。我们本身生活在一个3D世界中,孩子刚出生时,如果给他一个球,他会本能地与之互动,这种互动是天然的。然而,文字、图片和视频之所以在互联网时代更为常见,是因为互联网技术还不够成熟。实际上,世界原本并非以文字、图片和视频为主。我们对有文字的文物更感兴趣,是因为文字的信息密度低,少量文字能抽象出多种事情。

但史前文明中,大部分东西是几何雕塑,如工具、饰品、图腾等,这些都是当时主流的表达方式。随着人类的发展,人们发现了颜料,开始在山洞中作画,这种表达方式的信息密度更低,但能更生动地表达更多内容。后来,文字才逐渐出现。

同样的道理,在互联网时代,我们在有限的带宽和处理能力下,信息传播从文字(如微博、博客)开始,逐渐发展到图文(如微信公众号、小红书),再到视频(如抖音、快手、TikTok)。随着互联网技术的成熟,信息传播应该是一个逐渐"解压缩"的过程,回归到最真实的状态。人们不再需要消费压缩的信息,而是直接消费最真实的内容。

在训练AI或开发通用大模型时,用原生的、信息密度最大的数据去训练,显然比用压缩后的信息更有价值。因为原生数据的信息量更大,更接近事物的本质。

李善友所以你不信"语言是通往AGI必然之路"?

宋亚宸:我认为,对世界的理解和3D的呈现方式才是信息量最大的。3D是最真诚、最真实、最可靠的信息载体和内容媒介。我们生活在一个3D的世界中。如果要将这个世界的信息进行压缩,比如通过视频来呈现,就会出现两种方式:实拍和虚拟拍摄。实拍是在现实世界中选择一个位置和角度进行拍摄;虚拟拍摄则是在人类创造的虚拟世界中进行拍摄,比如《哪吒》和《阿凡达》这样的动画电影。

这两种方式都有一个共同点:它们都有一个真实或虚拟的3D世界作为基础。

现在出现了一种新的方式,叫视频生成。这种方式的问题在于,它试图欺骗观众,因为它并没有一个真实的3D世界作为基础。这种做法是失真的,当它试图构建一个虚假的世界时,就会出现无数的谎言需要去圆。

例如,它会出现一致性问题和记忆时长问题。假设视频中有一个杯子,如果按照正常的实拍方式,拍摄者在外面拍摄了五个小时后回来,杯子肯定还在那里。但在视频生成中,如果生成了五个小时的视频后,它可能会忘记杯子的存在。这种幻觉、一致性和记忆问题,都源于视频生成在说谎,它不真实。同样的问题也出现在图片生成和文字生成中。它们只是编造出来的,因此存在本质上的问题。

所以,我们说3D才是万能的解决方案。通过3D这种最通用的形式,我们可以提供最多的信息,用这些信息去训练AI。如果AI准备好了,那么无论是AI生成的内容,还是它做出的判断,都可以再进行压缩。这样生成的内容才是最真诚和最真实的。

比如解决视频生成中的记忆时长问题,可以在3D世界中做一个标记,悄悄告诉AI这里有一个杯子,这样当它回来时就能想起杯子的存在。这种标记可以有不同的表达方式,比如影视表达或显示表达。例如,通过一束光或一个二维码,机器可以计算并发现这里有杯子,并将其显示出来。这需要一种3D的真实表达,才能解决生成内容中的虚假问题。这只是不同的表达形式而已。

总之, 3D是最真实、信息量最大的,它最符合这个世界原本的样子。我们在3D基础上进行训练、调整和开发,无论是AGI还是其他任何东西,这才是世界的本质。否则,我们在谎言的基础上构建新的内容,只能制造更多的谎言,最终出现各种幻觉和问题。

李善友:说得非常好,非常精彩!从实际发展来看,目前的主流趋势确实是先从文字入手。因为文字是最早被用于训练语言模型的,随后逐渐发展出大语言模型。所以,很多人认为语言是通往AGI的必经之路。但你说得很有道理,语言本质上是一种被压缩的信息载体,而3D世界才是最接近真实、最未被压缩的信息源。3D世界中蕴含着丰富的、未经压缩的信息,这才是产生真正知识和模型的基础。你的想法非常棒。

我想问的是,在你创业之初,或者在创业之前,你是先有了这个关于3D的想法,然后才决定去做的,还是看到别人在做3D相关的事情,才决定跟进呢?换句话说,你的决定是基于自己独立的认知,还是基于对他人经验的观察和借鉴?

宋亚宸:首先,我们肯定是基于3D的。我们认为3D是非常有价值的,尤其是3D带来的可交互性,这种实时交互性是其他形式所不具备的。我们当时有一个重要的发现:从文字到图片再到视频,这些内容形式本质上是不可实时交互的。

虽然技术上并非完全不可交互,但人们通常不会用这些形式进行实时交互。因此,我们把文字、图片和视频的内容称为一种体验方式,这种体验方式可以称为"移情"(empathy),即通过"站在他人立场"来体验。例如,当你观看电视剧《狂飙》时,你体验的是高启强的人生;当你阅读小说时,你体验的是张无忌的人生。这些内容让你通过观察他人的故事来获得体验,而不是让你直接参与其中。

李善友:3D让我们不只是做一个旁观者。

宋亚宸:没错,在3D世界里,核心在于"主体性"——这里的"我"是具有自主能动性的存在。比如我可以拥有"一刀999"的强大能力,去闯荡世界、征服四方,这完全是围绕"我"展开的亲身沉浸体验。这种体验和其他类型的体验有着本质区别,而目前来看,这类以"我"为核心的主体性体验,其实还不够丰富。

李善友:那我玩2D游戏的时候,不也是我在体验吗?

宋亚宸:3D形式本身就是最适合实现可交互体验的载体——毕竟人类天生就习惯于在三维空间中与周围环境、他人产生互动,这种与生俱来的行为逻辑让3D与"可交互"之间形成了极强的绑定关系。也正因为如此,在当下的认知中,我们看到"3D"这个概念时,几乎就等同于默认了它具备可交互的属性。

李善友:3D等于可交互。

宋亚宸:目前行业已经在朝着这个方向推进,而这一点也已然是既定事实。当我们以移情的视角去体验各类内容时,会明显发现这类体验已经相当丰富了。就像我们日常能接触到微博、小红书、抖音、Tiktok这些社交与短视频平台,还有奈飞、爱奇艺这类长视频平台,各类可观看、可共情的内容随处可见,能满足我们多方面的情感共鸣需求。但与之形成对比的是,那种以"主体性"为核心的体验却格外稀缺:现实世界里,我们能自主做出选择、主导行为进程,这类亲身体验相对丰富;可在虚拟世界中,这种由"我"掌控、自主行动的体验,目前还处在非常匮乏的状态。

李善友:的确是这样。为什么会有这种现象?

宋亚宸:原因在于文字、图片和视频已经吸引了大众参与创作,这就是所谓的UGC(用户生成内容)。而3D或可交互内容,目前仍然属于"精英"的艺术,这是最本质的区别。以前,文字内容是非常稀缺的。例如在唐朝,能够写诗、写小说的人可能不超过100万,这属于精英的艺术 。图片也是如此,过去我们去画廊看到的大多是米开朗基罗等大师的作品,全世界能创作这样作品的人也不到100万。视频领域也类似,无论是好莱坞还是横店,能从事专业视频创作的人也不到100万。

现在的3D或可交互内容也是如此,例如腾讯、网易、育碧等公司,全球能从事这类创作的专业人员可能也不到100万。那么,如何让大众也能参与到3D或可交互内容的创作中呢?

关键在于有一个大众级别的创作者工具。例如,文字创作有打字法,图片和视频创作有手机摄像头,这些工具让每个人都能以零门槛、零成本、实时地创作内容。为什么一定要零门槛、零成本、实时创作呢?因为UGC和PGC(专业生成内容)最大的区别在于,大众和专业用户最大的区别是:专业用户是为了赚钱,而UGC用户不是为了钱。这是最本质的区别。

李善友:就是在表达,在娱乐。

宋亚宸:用户参与创作的初衷,本就不是为了盈利,更多是为了抒发情绪,比如"装个逼"、吐吐槽、分享自己的人生片段这类情感表达,所以首先要保证他们创作时"不亏钱",没有经济负担。

那么问题就转化为:怎样才能让大众真正参与进来?这就必须满足"零门槛、零成本、实时创作"的核心需求。

我们注意到,AI3D大模型恰好提供了这样一种可能:它有机会将可交互内容或3D内容相关的创作,变成人人都能上手的大众级工具,让每一个普通人都能轻松参与创作。当创作门槛被彻底打破,大量用户涌入并产出内容,就会形成一个反向循环:先是创作工具普及带来内容的极大丰富,而海量内容又需要一个专门的平台来承载和分发,最终就会催生出类似"3D版TikTok"这样的产品,或是一个以3DUGC为核心的生态。

一旦这样的3DUGC生态成型,可交互内容的数量和种类将会迎来爆发式增长,整个可交互世界也会变得无比丰富。试想一下,当每个人都能自由选择无穷多的虚拟世界或可交互内容去亲身感受,从某种意义上来说,不就是把人们口中的天堂搬到了现实吗?因为每个人都能在当下,找到并体验到对自己而言真正最优、最极致的那种感受。

李善友:你说得特别对,认知最终要落地到实践,这背后其实是"两条线"并行推进,一方面认知需要靠信息支撑,也需要实践来落地,你刚才在认知层面的推导确实相当精彩。现在咱们再拉回到实践层面:这些认知是怎么转化成具体行动的?是因为你看到了某些明确的信号才这么做,还是说你开始做的时候,这个领域在世界上根本就是一片空白?你最开始是怎么启动这件事的?

宋亚宸:这件事肯定不是只有我一个人想到,世界上有很多人都看到了这个方向,并且已经在往这个方向努力了。我们之前也悄悄做过一个类似3D版TikTok的产品,但后来发现了一个问题:当产品发展到一定阶段后,创作内容就很难再继续增长了。我们做了很多用户调研,聊下来之后发现,核心症结在于用户需要的是零门槛、零成本的创作体验,只有这样他们才愿意主动参与进来。

所以我们意识到,必须先打造一款大众级别的创作工具。之后我们就开始寻找合适的技术路径,发现AI3D现在已经显露出了曙光,具备了落地的可能性。于是我们就集中精力把AI 3D相关的技术和产品认真打磨好,也正是因为这样,才有了我们现在的状态。

李善友:这种3D大模型和我们熟悉的语言大模型,核心区别到底是什么?你们最开始起步的时候,是先着手搭建3D大模型,还是先开发了前端的创作工具?

宋亚宸:先做的大模型,工具是今年才做的事情。

李善友:你从创立之初就专注于大模型领域,推进的则是3D大模型。这通常需要巨大的决心与远见,因为多数公司会选择先开发工具。

宋亚宸:是的。

李善友:我们聊聊3D大模型。

宋亚宸:我认为"大模型"实际上代表的是一种思维范式的转变。为什么这么说呢?在AI1.0时代,行业的主流思路并非追求模型规模,反而是致力于将模型做"小"。这是因为当时的研发逻辑相对直接:汇聚顶尖的算法科学家,针对人脸识别、异常行为检测等一个个具体而长尾的场景问题,通过大量手工调参与训练,来构建尽可能轻量化的专用模型。模型越小,意味着训练与部署成本越低,商业回报也更清晰。因此,那个阶段的核心是比拼谁能在解决特定问题时把模型做得更小、更高效。

而到了AI2.0时代,思考方式发生了根本变化。人们开始探索:能否通过海量数据和强大算力,驱动构建一个极其庞大且通用的模型,让它能够泛化到几乎所有场景,一举解决过去需要无数个小模型才能覆盖的问题。这背后遵循着著名的scalinglaw。就像经济学中GDP取决于劳动力与资本,在AI领域,模型性能可看作数据与算力的函数。当两者同步增长时,性能会显著提升;但若仅一方增长,另一方停滞,边际效益就会迅速递减。这就好比有千万工人却只有一把铲子,或是有千万把铲子却只有一个工人,效率都无法提升。

目前我们正处在这个范式之中:算力仍在快速增长,但高质量数据的供给已逐渐遇到瓶颈,导致算力增长的边际收益在下降。于是业界也开始反思:这是否意味着我们需要在一定程度上回归AI 1.0的思路,重新借助一些更轻量、更专注的模型来解决特定问题?这目前尚无定论,但可以明确的是,两种思维方式正形成一种有益的互补与循环。

至于语言大模型与3D大模型之间的区别,我认为更多体现在技术路径与领域迁移上。一种突破性技术,比如Transformer出现后,其核心思想往往会跨越领域,激发其他领域的学者思考:"我的领域是否也能沿用这种范式?"这种跨领域的技术借鉴与思维迁移,恰恰是推动进步的关键。

无论是Diffusion、Transformer还是"大模型"本身,其核心价值都不仅仅是具体技术,而更在于它们所代表的一种通用的问题解决范式。

李善友:但从外界的角度看,语言大模型已经足够复杂,而3D大模型从技术挑战上来说,通常被认为难度更高。

宋亚宸:困难主要来自于几件事:第一是复合型人才的稀缺。构建3D大模型,需要深度融合人工智能、计算机视觉与图形学三个领域的专业知识。这意味着团队既要精通大模型所需的分布式训练与并行计算,又要深谙视觉信息的底层处理,还必须掌握图形学中复杂的几何表达与渲染技术。这种跨学科的顶尖人才在市场上原本就极为罕见,可以说这是一个全新的领域,几乎没有现成的资深专家。因此,团队组建往往需要从基础培养,或依赖具备学习能力和交叉背景的年轻人才。

第二是高质量3D数据的严重匮乏。正如之前提到的,由于互联网生态与终端设备的限制,人类长期以来消费的主要是3D信息的"压缩包"——即文字、图片、视频乃至直播流。这些都是对三维世界经过大幅简化与投影后的二维载体。而我们真正直接消费、可用于模型训练的原生、结构化、大规模3D数据(如精细模型、点云、动态场景等)却少之又少。数据的缺失,从根本上制约了3D大模型的发展与训练效果。

第三个问题就是导致3D领域在早期的时候,缺乏很多资源,发展速度必然会受到限制。

这种变化在计算机视觉领域表现得尤为明显。以计算机视觉领域的顶级会议CVPR为例,早期在图形学的顶级会议SIGGRAPH中,大量与计算机视觉相关的论文涌现,甚至"侵占"了SIGGRAPH的部分内容。这是因为当时研究图形学以及AI3D的人才相对稀缺,几乎可以忽略不计。然而,仅仅经过短短两年时间,情况就发生了巨大转变。如今,不仅CGRAPH本身出现了大量与AI、3D和图形学相关的内容,CVPR会议上也涌现出了众多与AI、3D或图形学相关的优秀论文,包括最佳论文等重要奖项。

这种转变表明,随着AI、3D等领域逐渐成为显学,吸引了大量资源和资金的投入,进而形成了一个良性循环。回顾早期,该领域面临诸多挑战:首先,缺乏专业人才;其次,数据资源不足;最后,由于当时并非显学,导致整体资源匮乏。

李善友:当时你既没有相关技术背景,又作为初创公司资金有限,而这件事情又很难,你是怎么做起来的呢?

宋亚宸:主要是向他人请教,寻找合作伙伴。我们的CTO梁鼎给了我很多建议。我们曾在商汤是同事,彼此互相信任,我对他以及团队的技术能力非常有信心,相信他们能把技术这一块做出来。后来,首席科学家曹岩培以及其他一些青年科学家也陆续加入,我们的技术团队实力很强,我十分信任他们,于是便将精力更多地放在数据、资源等事务上。我们在短时间内搭建了一个有能力的技术团队,可以放心地将相关事务交给他们。

李善友:你们刚创业时,全球有3D大模型吗?

宋亚宸:可能有一些相关的论文,尤其是海外的,像Facebook、谷歌、英伟达、OpenAI等早期的一些尝试,但还不能称之为AI 3D大模型,应该没有真正意义上的大模型。

李善友:这件事很有意思。你在商汤做的是AI相关工作,主要是寻找各种应用场景,然后在MiniMax接触了大模型。如果你创业,最容易的路径是基于大模型进入各种垂直领域,就像商汤那样。但你没有选择这条道路,反而又深入了一层,这是一种理念性的创业。你的信心来自哪里呢?你的起步是非常不寻常的。你为什么会有这样的信心呢?难道只是凭借一种莫名的力量?

宋亚宸我觉得如果只是我自己去做这件事情,肯定觉得成不了,但我坚信我们有一个非常棒的团队,我对团队的信任很强,从未怀疑过团队会实现不了目标。

李善友:创业的想法是你提出的,还是CTO提出的?

宋亚宸:创业是我先提出来的。

李善友:那么在创业之初,你的驱动力来自哪里?是什么促使你来做这个东西?

宋亚宸:我们真心觉得有这个需求。就像我们要达到某个目标,中间遇到了一个钉子,我们需要找个锤子,什么锤子合适呢?我们觉得这个锤子最合适。这确实与其他公司不同,很多AI公司是先造了一个锤子,之后可能因为某些东西火了,大家就说,有了这个锤子,再去找应用场景、找钉子。但我们是在创业过程中实实在在遇到了一个钉子,即创作者没有办法零门槛、零成本实时创作,我们总得找个锤子去解决这个问题,而这个东西就是最好的锤子。

李善友:我能这么理解吗?3DTikTok这个想法是在先的。

宋亚宸:它其实是一个愿景,但要实现这个愿景,可能得先敲一个钉子。

李善友:对,大家来创作,需要工具,而工具必须得有一个3D大模型。所以你是一步步推导到这一步的。但最终你想做的是3D内容创作平台,类似3DTikTok。从需求侧、场景侧来看,你是清晰的,基于这个需求你才推导到这一步。

宋亚宸:我觉得3DTikTok或者说可交互内容的平台一定是一个长期的需求,即使今天不是我做出来,明天也肯定会有别人做出来,这是一个共识。

李善友:那这几年做下来,你们的3D大模型发展得怎么样了?

宋亚宸:我觉得发展速度比我想象中的要快。

李善友:为什么?

宋亚宸:可能是因为我之前经历的是AI1.0时代,那个时代的技术发展没有这么快。你会发现最近两三年的技术发展速度有点"变态",大家已经麻木了。其实最近两三年的技术发展是非常不正常的,速度太快了,大家看了太多的奇观,导致对真正的技术发展已经麻木。

李善友:现在是指数级进步,大家觉得也无所谓了。

宋亚宸:比如视频生成这件事,如果放在100年前,它绝对是一个伟大发明,可能是某个世纪的最伟大发明。但放到今天来看,它只是众多发明中的一个感觉还不错的东西。

这是一件我觉得非常神奇的事情,这件事情其实超出了我的认知。我原来觉得,可能四五年后,AI 3D大模型能够进入管线(3D管线是我们用计算机语言表达一个三维世界的方式),甚至超过人类水平,就已经很好了。但现在短短两三年时间,它已经基本上做到了。我觉得这件事情超出了我的预期,比我想象的快。

李善友:总的来说,在用户场景端,你们到了什么阶段?

宋亚宸我们现在大概有500万左右的专业用户在使用我们的专业工具,其中80%多来自海外。我们还做一些TO B的工作,大概有4万多家中小企业,约700多家大企业。

说到落地场景,我们主要有四大类:第一大类是内容创作,比如游戏、动画、影视、短剧、CG等内容的创作;第二大类是工业设计,包括轻工业、重工业、柔性化生产、3D打印等;第三大类是展示展览,比如电商、广告、教育、文旅、文博等领域的展示展览;第四大类是新兴行业,比如具身智能的仿真模拟、数字孪生、数字人、AI+游戏、世界模型、空间智能元宇宙、XR+AI眼镜等。

李善友:你现在最重要的难题是在技术侧还是在市场侧?

宋亚宸:我认为最大的难题并非单纯的技术或市场问题,而是身处这个充满噪音和诱惑的时代,人们是否具备足够的耐心和定力去完成一件事。要成就一件有价值、相对伟大的事业,长期主义是不可或缺的。以OpenAI为例,它经过了6年的沉淀才取得了如今的成果。

做一件有价值的事情,必然需要长期的积累和坚持。在这个过程中,你会面临诸多诱惑和恐惧,这些因素会不断考验你的定力和耐心。最近两三年,技术发展迅猛,各领域变革速度飞快,人们改变方向的速度也急剧加快。然而,在这样一个快速变化的时代,保持一定的"慢"反而有其独特价值。

李善友:如果从长期主义的角度来看,这件事的终极愿景是什么?

宋亚宸:愿景是为世界贡献文明,为人类创造幸福。

李善友:我觉得你是我在学生中第一次遇到的对思想有执念的人,而且你能拥抱世界的复杂性。你有没有形成自己独特的思维方式呢?

宋亚宸:我觉得我应该是有自己独特的思维方式的,但目前我还不太能很好地总结它。

宋亚宸我觉得我的思考方式是比较倾向于 Mill(约翰·斯图亚特·密尔)和 Bentham(杰瑞米·边沁)提出的理论。(这两位是主要的功利主义Utilitarianism的代表,功利主义是传统西方伦理学中一个重要的理论,提倡追求"最大幸福")。

我是这样理解并运用的,即每个人都有自己的幸福。

其实,很多哲学讨论的都是道德问题,而神学则在探讨诸如谁是第一推动者、谁创造了世界、人类从哪里来等问题。当我们谈论哲学时,我们其实是在讨论道德,但我们的思维方式并非仅仅基于这些关于世界起源和创造的问题,而是更像是一种基于世界观和价值观的思考。

就思维方式而言,我认为道德的本质应该是最大化幸福的总和。比如电车难题,它能很好地解释哲学中关于道德判断的许多问题。假设有一条铁轨,一边是死一个人,另一边是死两个人,我会选择死一个人,因为这样最大化幸福的总和就减少了。如果死一个人是 -1,那么死两个人就是 -2,这个计算过程非常简单。

李善友所以,"最大化幸福的总和"这句话对你来说很重要。

宋亚宸:没错,这其实也和我在创业时做的事情有关。比如,我认为创业有三种主要方向,当然创业的类型远不止这三种,但我认为目前最热门的是这三种。第一种是以快速扩散为典型表现,像马斯克和爱迪生那样,他们致力于让人们拥有更多的资源,如汽车等;第二种是让人们活得更长久,比如各种医疗公司,他们的目标是让人们从原本只能活到 50 岁,到能活100岁、1000 岁,甚至是永生;而我更喜欢第三种,就像迪士尼那样,哪怕只有五个人,这五个人只能活三天,我也希望让这五个人在这三天内能够活得最开心。对我来说,这才是最重要的事情。

李善友:嗯,那你在做这件事的时候,什么对你最重要?第一性原理是什么?你的核心信念在哪里?比如马斯克,他说要让人类成为跨行星的物种,这件事对他很重要,他觉得如果死之前不能完成这件事,这一生就白活了。但黄仁勋肯定不是这么想的,他先考虑的是活下去。

宋亚宸:我觉得人可以选择自己最极致的体验,这对我来说很重要,甚至我觉得每个人都能拥有自己最极致的体验,这件事很难得。

李善友:这是你最重要的东西,是你坚信的信念。

宋亚宸:对,我觉得这件事是最重要的。

李善友:你的能力在哪里?你的天赋在哪里?为什么你能做这件事情?

宋亚宸:我觉得这跟能不能做没有关系,而是跟方向对不对有关系。我可以跑得慢,那就慢慢跑。我也可以接受这件事最后不是我一个人做成的,可能是和别人合作完成的,或者最终是别人做成的。

我不愿意去做一件看似我擅长,但我不相信或觉得没有意义的事情。反过来,我可能不擅长把这件事做出来。比如我对技术一无所知,但我认为做这件事本身是重要的,至于是不是我最擅长,倒不那么重要。

马云可能也不一定是最擅长做阿里巴巴的,当时可能有上万人比他更擅长,但做不做这件事可能是最重要的能力。

李善友:你刚才想表达的是,这件事本身的意义。我觉得你很幸福,因为你真的相信这件事对你很重要。不是每个人都能这样。你是理念型创业者,而且你认为理念对你很重要。

宋亚宸:很重要。

李善友:你绝对是少数的。所以我觉得你是个小怪兽,是我特别欣赏、喜欢并愿意陪伴的小怪兽。第二点,我们找到了这个载体,从逻辑上推,它能通往那个目标。

我最近看黄仁勋的人生,最打动我的是他的人生上半场和下半场不一样。上半场他做游戏芯片,充满竞争,只是为了求存。下半场他走到GPU、CUDA、加速计算和人工智能领域,我觉得他在做自己。这时候应该是没有竞争的。上半场他的竞争方式是不竞争,下半场他成为自己了。

我相信人生是有上半场和下半场的。上半场是被EGO(自我)推动的,被贪嗔痴推动的,是人性本能推动的。但我相信有下半场,下半场是被真善美推动的。这件事不仅仅是为了我、为了大家,还是为了宇宙。大多数人先完成上半场,再进入下半场。而你是个少有的例外,你直接站在了下半场,这非常了不起。

我觉得人这辈子最幸福的事情就是做我此生该做的事情,在该做的事情里成为最好的自己,这就是借事修人,人事合一。这也是我说的以商入道。

打开小宇宙 app订阅混沌创办人李善友的播客节目,每两周的周四准时上新,我们期待与你相见!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 创业者 黄仁勋 英伟达 创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论