蓝鲸财经 4小时前
如果有100亿怎么花?8位具身智能大佬现身回答
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

蓝鲸新闻 11 月 24 日讯(记者 武静静)在资本与技术密集的具身智能赛道,百亿资金能否撬动人与机器人共生的未来?

11 月 20 日举办的智源具身 OpenDay" 具身模型会客厅 " 现场,八位产学研领军者面对这个充满张力的设问,展开了一场关于战略抉择与产业路径的思辨。

手里有 100 亿元推进具身智能,这笔钱怎么花?

在圆桌分析的现场,主持人甲子光年创始人张一甲抛出了一个更具穿透力的问题:" 如果手里有 100 亿元推进具身智能,这笔钱怎么花?""

中国科学院大学教授赵冬斌则幽默地将球传给了产业界的同仁:" 这是钱的问题,给他们来回答(笑)。" 巧妙地预示了随后即将展开的精彩交锋。

" 首先,100 亿不够。" 加速进化创始人程昊几乎无缝衔接,直言不讳地修正了问题的前提:" 如果我只有 100 亿的话,我肯定不会自己埋头落地,而是找更多的朋友一起,比如投到智源研究院,吸引全球的研究人才,让他们可以心无旁骛地去搞比较长期的技术突破。"

智源研究院院长王仲远的积极响应。" 我特别喜欢程昊总的这个回答," 他坦言,并进一步为这个数字提供了业界标尺:"100 个亿其实也就听起来很多,实际上也不多,也就 10 亿多美元。GPT-3 真的要开始训练的时候,微软投资的规模也就是这个量级。"

"100 亿其实并不重要," 北京大学助理教授王鹤直言,他将 " 愿景引领 " 置于纯粹的资金之上,强调:" 重要的是你怎么能够用你的事业和你坚定的进步,吸引到人才加入。我们不希望大家为了钱每天睁开眼睛,而是为了一个未来人与机器人共生的世界。"

自变量创始人王潜将话题拉回了最现实的竞争维度,他的答案简洁而犀利:" 我首先把市场上能吸纳的好人才都吸纳过来,这是第一位的。其次肯定是算力和数据。"

智元机器人合伙人罗剑岚展现了其宏大的技术构想:" 我会去构建世界上最大的能够自我进化、自我闭环的数据系统。" 他点出了其中的关键意义:"100 亿可以说很多,也可以说不多,但关键是,第一个投入百亿去做这件事的个人或机构,现在还不存在。"

清华大学助理教授星海图首席科学家赵行 renwei :" 我也会去构建一个最大的‘ data engine ’,目标是把物理世界的信息全部数字化下来。"

最后,招商局集团 AI 首席科学家张家兴从模型架构的层面,为这场讨论提供了一个收敛的方向。他表示:" 我是希望能够设计出属于我们自己的、具身智能的‘黄金式模型’,然后进行大规模预训练,让能力真的能够 scale up 上去,找到我们最正确的那条路径。"

架构之争:具身智能的 "Transformer" 终局思辨

面对具身智能未来也会收敛到某一种统一架构,每个人也给出了自己的思考。

中科院大学教授赵冬斌认为," 目前具身模型的训练方法比较多样化," 他指出,通过预训练、后训练等多种方式,模型已在多项任务上展现出通用能力。" 未来有可能会出现一个收敛的单一模型,但也可能继续保持模型多样化的路径。两者皆有可能。"

那么,最有可能的收敛路径是什么?招商局集团 AI 首席科学家张家兴率先描绘了一幅颠覆性的蓝图。" 就像人类智能的演进过程:我们是先有动作能力,再发展出视觉,最后才诞生语言。" 他犀利地指出,当前主流的 VLA(视觉 - 语言 - 动作)架构在视觉和动作之间插入语言模块,并不符合人类操作的本质逻辑。" 当我们开车时,可以一边说话一边驾驶,这说明视觉和动作之间本身就有直接通路。本质上,我们期待的是大模型领域能够实现一次范式转换:从过去三年一直坚持的‘ language first ’,转向‘ vision first ’或‘ vision-action first ’。"

清华大学助理教授赵行对此深表赞同。" 我们确实需要一个与大语言模型平行的基础模型,它更有可能是一个‘大型行动模型’。" 他阐述道,这个模型应建立在视觉基础上,再融入语言能力,这与生物进化规律高度吻合。他进一步点出了具身智能模型与大语言模型的关键区别:" 大语言模型是开环的——用户提问,模型回答,流程就结束了。但具身智能不同,它不是执行单一动作,而是每执行一个动作,就立即获得世界反馈,随即调整自身行为。因此,它必须是一个能够与环境实时交互、持续调整的闭环模型。"

然而,收敛之路并非一蹴而就。智元机器人合伙人罗剑岚提出了 " 系统论 " 的视角:" 智能问题更可能被一个完整系统所解决,而非依赖单一模型。这个系统包括 VLA、世界模型、强化学习等核心要素,整合在一起形成一个真正的闭环系统。"

智源研究院院长王仲远则从数据基础的角度给出了收敛的前提。" 这种模型所需要的数据量非常非常大," 他坦言," 它可能需要等到更多机器人真正落地……出现‘具身智能的互联网’之后,有了这样的数据基础,才有可能出现更好的大一统模型。" 尽管路径漫长,但他强调:" 从长期来看,我相信这是一个我们必须突破、必须解决的关键问题。"

北京大学助理教授王鹤将挑战指向了数据瓶颈:" 今天我们若想研发‘行动优先’的模型,面临的核心问题是:全球可能仅有约一千台、甚至更少的人形机器人处于前沿场景中运行。如此少的数量,远不足以支撑我们探索出成熟的架构与模型。" 他提出,短期需依靠仿真模拟,长期则依赖于 " 人形机器人口 " 的持续高速增长。

在讨论具体技术路径时,自变量创始人王潜提出了一个更本质的观点:" ‘ Transformer ’这个说法可能有些误导性,它终究只是一种架构组件。就像建造大楼,Transformer 可能只是砖块或钢筋,可以替换。更重要的是设计整座建筑的结构与功能。" 他从语言模型的发展中提炼出两条核心经验:一是数据质量优先于数据总量;二是通用模型(通才模型)能捕捉到任务之间的 " 共同结构 " 或本质规律。他甚至做出了一个大胆的预测:" 在不久的将来,真正主导的多模态模型,反而会是由具身智能推动发展的那类模型……反过来主导甚至取代我们今天所见的多模态范式。"

正如赵冬斌教授在最后所总结的:" 输入模态远比互联网大模型丰富,输出也有多种实现路径。目前整个业界发展非常迅速,从学界角度来看,依然处于百花齐放的状态。"

而这正是爆发前夜的典型特征——在通往终局的路上,充满分歧的思辨,往往比表面的共识更能推动领域的前行。所有人都在期待,那个能点燃具身智能 "ChatGPT 时刻 " 的范式革命早日到来。

评论
大家都在看