极客公园 03-14
​实测新版通义 APP:更好用的个人 AI 助理,需要什么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

正式并入阿里 AI To C 业务之后,通义有了新的动作。

最近,通义 App 全新升级——整合了上周刚刚开源的 QwQ-32B,并上线了人格化的智能体作为主产品要交互对象。

与 AI 大模型不同,「智能体」所强调的除了模型本身能力之外,多了目标导向的需求,通过感知环境、自主决策与执行动作,从而在真实环境中完成操作。

这次更新,可以说是通义 App 上线以来最重要的一次产品迭代。一方面,上周开源的 QwQ-32B,因为以更低的参数量实现了媲美 R1 的推理和通用能力,而被全球 AI 行业关注;另一方面,由于 Monica 团队推出的 Manus 一夜爆火,智能体也是近期行业关注的焦点,人们期待看到更多可以影响真实世界的 AI 应用诞生。

而过去两年,通义千问一直凭借着模型能力本身,通过 AI 模型生成视频等方式,多次在全球社交媒体上「出圈」,因此也有很多人期待通义 APP 的这次更新,能真正做到整合阿里在模型领域的竞争优势,在面向 C 端用户的 App 应用场景中打造爆款。

当然,路遥知马力,通义 App 这次能否在用户体验上带来惊喜,还是要试试才知道。

01

实测效果

如其名,QwQ-32B 是一款拥有 320 亿参数的大模型,但阿里通过基础模型 + 大规模强化学习的方式,在前代模型的基础上实现性能提升。

在此前开源版本的基准测试中就已经能看出,其数学推理、编程能力以及通用能力,已经可与具备 6710 亿参数的 DeepSeek-R1 媲美。

在保持强劲性能的同时,千问 QwQ-32B 还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署。

本次更新之后,通义 App 首页就能看到千问 QwQ-32B 的应用,同时提供了多个能够体现深度思考能力的问题供用户体验

整合深度思考能力的通义 App,在面对如「若 A=5,B=3*A,C=B+2,求 C 的值」这样的数学逻辑问题,亦或是「分析《哪吒 2》三个关键角色的 MBTI 这样根据互联网内容」「把橙汁加进牛奶里」这样结合知识库的解答问题。

在实际的问题测试中,深度思考让通义 App 成功通过了数学题这样的基准测试理解,同时也展示出了针对现实物理现象的推导能力,同时相比于同期其他模型的回答,通义 App 更强调对结果的复核以及谨慎列出其他可能的特征。

比如在处理另一个容易误导 AI 的经典问题「为什么爸妈结婚没有叫我参加婚礼?」时,通义 App 成功识别到其中的逻辑漏洞,但仍然从「时间因素」以及「婚礼习俗」等角度,谨慎地为这个明显看起来很「抽象」的问题,绞尽脑汁地帮你从各种角度,想出了更多可能性。

QwQ-32B 处理问题时展现出了更强的逻辑性以及对回答更谨慎的态度 | 图片来源:极客公园

不过上面也提到,QwQ-32B 模型本身的强大,并不是构成「超级智能体」的全部要素。随着大模型应用在端侧设备上的整合越来越深入,「不同任务不同模型」的这个逻辑概念也被越来越多人所熟知。

首先从模型能力上来说,通义 App 这个超级智能体是一个复合模型,比如问答、聊天等等调用的都是阿里不同的模型能力,例如代码、翻译、逻辑推理这些就是调用的通义千问的旗舰模型 Qwen2.5-MAX。

除了模型能力本身,本次通义 App 更新的另一个重点,则是聚焦在了 App 本身:这在近两年 AI 应用能力军备竞赛如火如荼的情况下,是一个很罕见的情况,但因此也更加值得关注。

新版通义 App 将主页设计分为了三部分,左滑右滑对应着不同的功能。首页左滑是历史记录,包括聊过的智能体、对话记录等,便于高效管理与资产沉淀。右滑则进入通义丰富的智能体生态,覆盖学习、工作、娱乐等多元场景。类似拍照讲题、思维导图这样新增的功能,在首页的输入栏上方就能找到。

新版通义 App 主要可交互界面分为左滑 / 右滑两个页面 | 图片来源:极客公园

在首页,通义 App 还增加了一个可爱的「邻家女孩」,作为此前以科研、代码能力专长的通义千问大模型产品中,从未出现过的 AI 陪伴形象,用户可以通过与她的对话,直接使用到 QwQ-32B 的全部能力。

除了新形象之外,在右滑之后进入到的界面中,你能找到各种对应具体应用场景的模型能力,例如「健康顾问」「AI 扩图」这样的重要但小到不会有人专为其开发 App 的场景。都被通义 App 整合到了这个「工具箱」中。用户还可以在这里根据自己的具体使用需求,创建属于自己的智能体:例如让模型模仿某个剧中的角色,或是利用模型能力,创建各种娱乐游戏。

除此之外,通义 App 就没有其他的主要交互方式了,所有内容被浓缩在这三大页面中,让已经习惯当代各种应用层层嵌套操作逻辑的我,甚至一时间都没有适应这种突如其来的简洁。

按照官方开发人员的介绍,未来通义 App 还会继续在 App 中塞入更多 AI 能力,但不会跳出这「三大页面」的框架。未来,通义 App 还能实现根据用户的问题,自动识别到应该调用哪个具体的智能体。

这个变化,有体验新版通义 App 后的网友感慨说,通义 App 让「最强 AI 飞入寻常百姓家」。

02

行业意义

在软件领域,「杀手级应用」(Killer App)是一个已经颇有年头的名词。按照通义 App 的说法,「杀手级应用」的定义是「一种具有颠覆性吸引力或功能」的 App。

按照这个定义,实际上 ChatGPT 之后,AI ToC 应用生态直到目前,都还没有产生真正的「杀手级应用」。

这一现象与 2025 年 AI Agent 的爆火背道而驰,AI Agent「代替你做一切」概念的出现,其实反而倒逼着大模型应用在体验上要做到「更好用」:不仅能聊,还要在类似帮用户规划行程、查找资料等相关场景中,体现出「超级入口」应有的智能。

「AI 即 APP」最大的挑战在于用户习惯的改变——毕竟,不是每个人都愿意为一个个 AI 单独下载一个又一个的 APP,甚至更习惯在已有的 APP 里顺手调用 AI。

对于通义 App 团队来讲,他们或许是让用户感受到「这个超级智能体啥都会干」;不仅能问能聊能写作,能生图能拍图能翻译这些基础需求,还能在此基础上,做到更多基于用户个人需求专属定制的智能化。

03

总结

 

「智能体」这一概念,从诞生一开始,就以追求目标导向为设计指标。

对于通义 App 来讲,无论是更强悍的基座模型,还是「可爱的邻家女孩」,都是在这个目标导向下所作出的努力,为了让 AI App 变得更智能,真正成为一个满足用户预期的超级入口。

一个让用户足够方便的 AI App,并不只是一个简单的提效工具,更将会成为我们的「数字世界代理人」。

随着模型能力的逐步提升,个人 AI 助理这个概念能做到的事,也在逐渐变得更多。

或许,随着 AI Agent 进化到极致,我们甚至将不再需要一个可以用于触控的 UI:无论是 AI 应用早期出现的 Rabbit R1,还是近期爆火的 Manus AI,这些 AI Agent 产品,实际上都是通向这个目标的不同阶段。通义 App 实际上也是在这个方向上,向着成为一个更好用的产品,又迈进了坚实的一步。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 开源 阿里 用户体验 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论