卫夕指北 8小时前
千问亮剑:阿里全新C端AI原生应用体验如何?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

最近,国内 AI 的战场上,又多了一位参赛的 C 端选手——阿里千问 App。

此次上线的千问,作为阿里旗下最强最新的 Qwen 大模型首个官方应用入口,剑指 ChatGPT 等全能 AI 应用标杆。

其核心竞争力在于 Qwen 系列模型——该系列模型在多项权威评测榜单中持续登顶,以领先性能构筑起底层技术壁垒。

但问题的关键在于:Benchmark 上的高分,能否转化为用户手中真实可感的体验?

这篇文章卫夕就和大家一起来盘一盘——

一、千问需要将模型能力转化成好用的应用体验

一台好车,发动机的马力只是必要条件,而非充分条件,最终用户在意的,是这辆车整体开起来舒不舒服。

Qwen 系列模型的实力毋庸置疑,Qwen 的开源模型已经位列全球第一梯队,长期雄霸各类榜单。

同时其建立了一个完整的模型家族:语言、视觉理解、图像生成与编辑、视频生成、代码 ...... 几乎覆盖了所有关键场景。

这种全模态的能力矩阵,是千问区别于竞品的第一道护城河。

这一点对于竞争而言其实挺重要的,目前市面上各家 AI 偏科的不少——

DeepSeek 产品没有视觉理解能力,ChatGPT 的图像编辑打不过 Nano Banana,Claude 代码强但缺多模态。

而千问从一开始就是一个水桶型选手,没有明显的能力短板。

但千问 App 的现实挑战是:如何让 Benchmark 上的高分,变成用户手中实实在在的好用。

二、千问的创造性思维如何?

如果你问一个 AI 应用最重要的能力是什么,答案可能因人而异。

对于我而言,有一点是确定的:在我高频用它之前,它得让我识别到它的特点。

由于我个人的偏好,我测试 AI 应用喜欢用它们开一些脑洞,咱们废话少说,一起来看一看千问的测试表现——

第一个我常测的问题——

" 假如唐朝就有微博,历史名人们会如何互动?"

千问的答案

可以看到,千问的答案一开始就精准拿捏李杜的性格反差,然后过渡到王维、孟浩然等不同圈层的互动,再加上了安史之乱的补充,到最后的假想微博体的文化意义。

答案的确 Get 到了这个整活问题的出发点,同时也没忘适当拔高和延展

再看一看豆包的答案——

豆包的答案

可以看到,和千问的 " 大局观 " 相比,它的回答直接而富有娱乐性。

直接将博文和评论互动列了出来,同时还加入了杨玉环这样的角色,符合豆包 " 内容向 "、" 娱乐向 " 的过往风格。

再来——

" 分析一下《西游记》中四位主角的 MBTI"

千问的答案

对于这个问题,两边的答案就有一些差异了。

先看结果,千问的结果是——唐僧 INFJ、孙悟空 ENTP、猪八戒 ESFP、沙僧 ISFJ。

而豆包的结果是——唐僧 INFJ、孙悟空 ESTP、猪八戒 ESFP、沙僧 ISTJ。

豆包的答案

二者在唐僧和猪八戒二人的结果上没有分歧,分歧在于——孙悟空到底是 N 还是 S,沙僧到底是 F 还是 T。

我个人倾向于孙悟空是 S(更凭直觉而不是抽象),但千问的理由是孙悟空一眼看出妖怪的本质,因此不是直觉,这样听起来也有理有据。

至于沙僧,我则认为千问的答案 T 没毛病,沙僧在西游记里是有多次感情流露的。

对比二者,会发现豆包的答案更直接,而千问答案还会给出理论支撑的信息,更让人信服一些。

第三题——

这道题是来自我最近买的一本书——《501 个创意写作练习》,一本全是提示词的书,我随便挑了一道:

千问的回答是这样的——

千问的答案

可以看到,千问的回答在行文水平上非常流畅,它选择了 " 打扫庭院 " 这个任务。

在语言上的确还原了极限运动播报员这一角色,更重要的是,它总结了行文思路,同时对其他任务也提供了播报的参考的方向,可以说非常贴心了。

而豆包选择了 " 清扫房间 " 这个任务,行文同样对极限运动员还原的不错,从语言风格上,豆包有更多的引号,显得更加癫狂一些。

二者的取向并没有好坏之分,取决于具体用户的偏好,我个人更喜欢千问的版本稍多一些。

总体而言,我发现千问的答案找到了一个微妙的平衡点,它既不会过于拘谨显得无聊,也不会太过放飞而显得癫狂。

这种平衡,来自 Qwen 模型在训练时对结构化输出的强化,你能感受到它的确在思考、在组织。

它懂得什么时候该放飞,什么时候该收敛,从这个意义上,上面这些问题的答案千问表现不俗。

三、从有趣到有用:千问的另一面

创意只是开始,对于一个真正想要占据用户日常的 AI 应用来说,靠谱才是核心。

这就涉及到千问必须回答的第二个问题——

在实用、专业的场景中,它能否经得起考验?

我用几个真实场景测试了千问:

场景一:

" 北京市的 " 工作居住证 " 如何办理?"

这是一个典型的 " 本地化、政策性 " 问题,它要求有准确的流程、最新的政策、可操作的步骤。

千问的回答非常出色,它从申请条件、申请材料、申请流程、待遇等方面详细给出。

甚至还给出了一些区的咨询电话,非常全面,同时在答案末尾还推荐了一些相关视频。

而豆包的回答则要逊色一些,核心信息只有申请流程,而流程的 4 步只是一个概述,并没呈现相关细节。

场景二:

" 请总结最近两年腾讯的前 10 大股东的变化情况。"

这是一个典型的专业研究场景,它需要 AI 准确查找信息,同时具有有数据分析的能力,还要结合提问进行推理。

千问的答案,不仅专门列出了南非报业、马化腾以及贝莱德投资者具体的变动。

还通过表格进行了相对清晰的统计,并结合变动分析了趋势,最后进行了总结,滴水不漏。

而豆包的答案直接列出了变动,但并未通过表格列出具体的前 10 大股东。

我专门查验了一下,发现二者引用来源还挺不一样的,推测应该是引述不同来源导致的差异。

场景三:

" 这是什么东西,应该如何使用?"

这是一个 " 视觉识别 + 推理 " 的场景,也是生活中常见的场景。

我家的洗手间,就有很多我媳妇儿各类瓶瓶罐罐,全是英文,不少我既不认识也不知道怎么用。

而 AI 则完全可以解决这个问题——

千问准确识别出了这是用于监测哮喘和慢阻肺最大流速的峰速仪,给出了品牌、产品特点、实用方法和注意事项,最后还给出了淘宝链接。

而豆包在同一场景下也很好地完成了任务,给出了使用方法和注意事项,最后还问用户是否需要补充使用清单。

豆包的答案

此外,我还用 DeepSeek 也试了一下,发现 DeepSeek 尽管识别正确,但它并非是通过视觉物品而得到的结论,而是识别图像上的文字。

当只给到纯物品图片时,DeepSeek 就会提示 " 未提取到文字 ",这一点千问会有明显优势。

DeepSeek 的答案

此外,我还进行了一系列的其他测试,比如图片编辑、视频通话、深度研究等,千问的完成度比我预期的要高。

图片编辑功能默认有不同的滤镜,同时设置了扩图、去水印等常见操作。

我试了一下,去掉照片里的路人、AI 试衣等常见的图片玩法毫无压力。

另外,我还用视频通话,简单对着桌面问了一下他看到了什么。

它的视频通话的延时非常低,画面描述也很精准,我相信家里老人们拿它识别一些花花草草肯定也非常实用。

可以看到——

得益于模型层的领先,无论是回答 " 工作居住证 " 这类政策问题,还是 " 腾讯股东变动 " 这类对准确性要求高的财经问题,还是生活中常见的识图场景,千问交出的答卷都滴水不漏。

如果用四个字形容,那就是 " 稳如老狗 ":

首先,思考的思维链很清晰、质量很高。

同时在搜索结果引用和推理层面做到了切中要害,最后在呈现上(办理流程列出资料的具体项目、股权变动用图表对比)非常直观、详细,阅读体验很好。

其次,得益于其在多模态层面的领先优势,千问 App 超越了一个 LLM 的范畴。

因而可以做到在功能层面覆盖非常饱和(修图、视频通话、视频生成、PPT 等等),能最大程度上满足不同用户的多元需求。

从这个意义上,我对千问的评价就两个字——靠谱。

靠谱这个词,说起来简单,背后其实包含了很多多东西,它涉及模型的能力、应用的设计、价值的取向等一系列复杂要素。

一个靠谱的 AI,应该像一位值得信赖的专家,在你需要的时候,给出可执行的答案。

这一点,千问的确做得不错。

这几天,我在 Twitter 上也刷到了不少人对千问的评价,比如一位叫骆逸的建筑师是这样说的——

我想,用户自然的口碑可能就是千问最好的背书。

四、挑战与未来:千问能走多远?

在过去,Qwen 大模型虽然在技术上领先,但普通用户感知不强。

而千问的使命就是要扭转这种局面,打通 Qwen 大模型和 C 端用户之间的最后一公里。

这种定位,决定了千问的产品逻辑:不只是要聊得来,更要用得上。

它希望覆盖用户从创意到执行的全流程,成为用户工作、学习、生活中全能助手。

而这并不容易。

接下里的战争应该非常精彩,字节、腾讯、阿里还有 DeepSeek 和 Kimi,到底谁能在长期的竞争中胜出,值得从业者认真观察。

千问的一个挑战就是——如何建立自己的场景心智?

我直观的感觉,从目前的产品定位来看,千问野心就是要做中国的 ChatGPT,但这个 C 端用户的心智如何建立,可能需要时间。

我倒认为,千问可以抓住 "AI 生产力平台 " 这个定位空白,强化相关场景,从而实现差异化竞争。

这需要千问在传播和运营上,找到清晰的锚点和场景,让用户知道,在什么情况下,第一时间想到千问。

从我个人的角度,我很期待的一点是千问之后在 Agent 能力上的升级迭代。

据《晚点》对千问团队的采访,千问后续差异化竞争点在于 Agent ——

" 阿里体系下有这么多 Agent,怎么基于场景把它们更好地串联在一起?用户很多需求使用的不是一个或者两个 Agent 的服务,比如说我想要规划一个团建,调用的不只是飞猪,可能还有很多支付、出行、购物等一系列能力,怎么把它们有机且丝滑得串联在一起。"

的确,从能回答的 Chatbot 到能干活的 Agent,其想象空间要大不少,而阿里的生态恰好又是和用户日常生活联系最紧密的系统,因而会带来很大的想象空间。

据腾讯的财报电话会,微信之后也会推出 AI Agent,阿里和腾讯在 C 端的 Agent 赛道有一次重逢。

二者在打法上有哪些差异化看点,值得行业持续关注。

结语

千问的推出,是阿里在 AI 时代的一次重要战略布局。

过去几年,阿里在 AI 领域布局很全——

从底层算力(阿里云)、到模型研发(Qwen 系列)、再到应用层面(千问、夸克 AI、钉钉 AI)。

这是一个全栈的打法。

千问 App 的推出,是这个全栈在 C 端的集中爆发,而千问承载的,是阿里对 "AI 新质生产力 " 的理解。

而到底什么是 "AI 新质生产力 ",每一个行业玩家都应该严肃思考。

—— End ——

作者简介:卫夕,公众号 " 卫夕指北 " 出品人,科技专栏作者,专写长文,专注剖析互联网及社会科学的底层逻辑;不关注这个账号,你都不知道你会错过神马!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 阿里 西游记 nano 发动机
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论