量子位 3小时前
GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

鹭羽 发自 凹非寺量子位 | 公众号 QbitAI

最近,清华教授、智谱灵魂人物唐杰聊得有点 high。

昨天先是畅聊 AI 认知,"AI 的终局就是 AGI,一场猎龙游戏 "。引起广泛热议后,一觉醒来今天又在当众征集意见:

各位!下个版本的 GLM,你想要啥?

浏览量瞬间干到了 40w+,这影响力真够顶的!

不过要说网友们为啥这么捧场,还得倒回去年 GLM-4.6 刚开源那会儿。

彼时唐杰也问过这么一回,评论区纷纷热情支招,一条条需求后来陆陆续续都在 GLM 后续版本中有所实现。

真 · 有求必应 · 阿拉丁。

所以这次他一张口,懂行的人立马团建去了~有 po 自己痛点的,也有智谱自家员工在下面留言。

比如这位网友直接列出了自己的愿望清单:更强的 Agent 能力、超长上下文保持质量、更灵活的 API ……

更有甚者诚恳祈祷:求你了 GLM!做一个类似 Codex 的桌面应用!!

有趣的是,这次 GLM-5.3 的评论区,刷得最多的还是——

视觉!

GLM 的视觉之痛

两周前,智谱刚刚开源 GLM-5.2。

强到离谱!开源界 AI 编程第一、全球第二,仅屈居于大名鼎鼎的神话级模型 Fable-5。

但要说痛点,很明显,也是真的痛:

没视觉啊……

纯文本模型,搞得动百万 Token 超长上下文和深度逻辑推理,但偏偏没搭载视觉编码器,看不了图也造不出图。

反观拿来对标的 Fable-5,它是原生多模态模型,视觉能力应有尽有。

于是 GLM 用户双双流下羡慕的泪水:我也想拥有 TT

而且关键在于,不是智谱做不出视觉。恰恰相反,今年 4 月智谱发过一个叫 GLM-5V-Turbo 的模型。

原生多模态的 Coding 基座,从预训练阶段就把视觉和文本揉在一起,能看懂设计稿、截图、网页界面,然后直接吐出能跑的代码,主打视觉 + 代码 +Agent 一体化。

再往前看,智谱也做过不少多模态模型,CogVLM 视觉编码器就出自他们之手。唐杰本人发表过的视觉论文,更是一抓一大把。

所以问题压根不是有没有视觉能力,而是智谱没把视觉放进最强旗舰模型中去。

这一点从唐杰过往的发言中也可见一斑,比如去年底的大模型年终总结,他先是肯定多模态是未来。

但随即他又补刀道:

问题是,当下的多模态对提升 AGI 的智能上界,帮助有限。可能最有效的方式还是分开发展,文本、多模态、多模态生成。当然适度的探索这三者的结合肯定能发现一些很不一样的能力,但这需要勇气和雄厚的资本支持。

你品,你细品。

唐杰这种冲在 AI 一线的科学家,盯着的始终还是第一性原理——模型智能。视觉可以让模型更好用,但要让模型更聪明,靠的还是复杂推理那套硬功夫。

这就是用户和厂商的视角差异。

AGI 对于用户太遥远了,所以用户更在乎的是,眼下贴张图模型能不能接住、截个屏模型能不能看懂。

于是就出现了这条推文里最微妙的拉扯。一边是科学家盯着智能的天花板,觉得视觉只是锦上添花;一边是全世界的开发者都在齐刷刷呼喊视觉。

更何况,对手也来势汹汹。

Kimi K2.5 今年 1 月就是原生多模态了,Qwen3.5-Omni 三月份端到端把文本 / 图像 / 音频 / 视频全统一进一个模型,更别说国际上 Gemini 3 那种原生文图音视频一把抓的。

GLM 旗舰款补足视觉,几乎是迫在眉睫。且等接下来端上桌的 GLM-5.3。

One More Thing

最后再看看唐杰最近的一些分享吧,还挺值得琢磨的。

(其一)

(其二)

(其三)

(其四)

参考链接: [ 1 ] https://x.com/jietang/status/2071454597521215748?s=20 [ 2 ] https://x.com/ZixuanLi_/status/2071491673511674059?s=20 [ 3 ] https://m.weibo.cn/status/5247011059141988

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 神话 开源 量子位 清华
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论