智东西 03-12
通义App迎重磅升级!接入阿里最新推理模型,实测观感大不同
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 陈骏达

编辑 | 漠影

什么,通义 App 现在长这样了?

近日,阿里旗下的通义 App 迎来升级,UI、交互体验到背后接入的模型都全面重塑,整体外观大做减法,而内置模型、工具的能力则进一步升级。

进入新版通义 App 首页,主智能体引入 "邻家女孩" 这一富有亲和力的新形象,能胜任大部分应用场景中的需求。

右滑则是丰富的智能体生态,将原版通义 App 的工具、角色、频道等页面整合,呈现更为直观。

左滑后,用户的对话记录、创作的图像、视频与创建的智能体都一览无余。

值得一提的是,新版通义 App 还接入阿里最新推理模型千问QwQ-32B,这款模型以 32B 的参数量,在数学推理、编程能力上与 671B 的 DeepSeek-R1 旗鼓相当。此外,在多项通用能力测评中,QwQ-32B 的得分超越 DeepSeek-R1。一经发布,便获得全球开发者的关注与赞赏。

已经有不少网友体验了升级后的通义 App,其更快的响应速度、更丰富的交互体验获得好评,还有网友感叹,新版通义让 "最强 AI 飞入寻常百姓家"。

通义 App 迎来升级后,智东西第一时间全面体验了其在交互、模型、工具等方面的新变化,在阿里加码 AI to C 的大背景下,新版通义有望成为更实用、更贴心的个人 AI 助手。

一、拍照找 bug、解答无厘头问题,还能给会议画脑图

新版通义 App 以超级智能体作为交互中枢,用户在通义首页能问、能聊,还能让智能体进行图片理解、图片生成,翻译、写作等任务。

此外,通义首页还会推荐基于其他模型或者具备其他不同功能的智能体。目前,基于 Qwen-QwQ-32B 的被放在了首页的推荐栏中。用户只需点击,就能与这款新模型进行对话。

数学、代码类问题一直是通义模型家族的强项,实测中,搭载 QwQ-32B 智能体的通义 App 回答了从高考压轴题到 AIME 真题等不同难度的数学问题,还编写了一个简单的游戏。同时,为了避免大模型上网找答案,测试时联网搜索能力均已关闭。

下方是 2024 年高考全国甲卷理科数学的压轴题,在先前的测试中,智东西曾让 DeepSeek-R1 解答,R1 用时 80 余秒,给出了正确答案,但解题流程不符合评分标准中的规范。

测试中,QwQ-32B 在解答这道题目的用时略长于 R1,这主要是因为它在思考过程中进行了更多的反思、验算等流程,还尝试了不同的解题思路。

▲ QwQ-32B 的部分思考过程

最终,QwQ-32B 两个小题的答案都完全正确,解题格式较为规范,不过,它漏掉了一个踩分点,无法拿到满分。

智东西又让 QwQ-32B 尝试了一道 2024 年的 AIME 真题。在面对英文题目时,Qwen-32B 也毫不露怯,会自动用英文思考,不到一分钟,QwQ-32B 便给出了正确答案,这一次它的证明过程没有破绽。

测试完新版通义 App 中 QwQ-32B 智能体的数学能力,我们再来看看其编程方面的实力究竟如何。智东西让 QwQ-32B 编写了一个基于 HTML 的五子棋小程序,并加入了 " 三三禁手 "、" 长连禁手 " 等限制黑棋的规则。

几分钟后,QwQ-32B 用不到 200 行代码完成了这一任务,还解释了禁手检测的实现逻辑。细读它的思考过程,还能发现它自我迭代了几版实现方法。

不过,作为一款手机 App,通义在代码场景中更常见的应用或许是拍照解释代码。智东西在先前的程序中埋入了一个 bug,导致游戏无法判断胜者,无法结束。

由于 QwQ-32B 智能体目前暂时不支持图片上传,我们将这一挑战交给了通义 App 中的主智能体。据了解,在代码类问题上,主智能体会调用通义千问的 Qwen-MAX 模型。

简单分析后,通义给出了几个可能的原因与修复的代码,复制粘贴后再进行微调,游戏程序便能够正常运行。

如果说数学、代码等能力更偏向理科,那接下来的几道测试题则更侧重于文字推理、百科知识的考查。

目前,有许多大模型都在历史类问题上表现不佳,尤其是在涉及资料较少的国家和民族时。智东西让 QwQ-32B 智能体分析了 " 南非有没有锁甲 " 这一问题。观察它的思考过程,我们可以发现,QwQ-32B 从不同年代、不同民族的角度条分缕析地回答了这一问题,答案也符合史实。

至于下方这类无厘头的问题,通义则采取了 " 用魔法打败魔法 " 的策略。

通义 App 中的 QwQ-32B 智能体引经据典,从经济学视角、生物学视角逻辑学视角等 5 个不同角度给出了理由,让人无可辩驳。

通义 App 的一大特色是其专业能力,如实时记录、拍照讲题、健康问答等领域。新版通义 App 中,实时记录功能新上线了脑图功能,录音后不仅能生成会议纪要,还可以将会议内容生成脑图,可谓是打工人福音了;拍照讲题功能现在不光能给出答案解析,还能持续追问,允许用户 " 打破砂锅问到底 "。

二、高情商有温度,产品交互全面重塑

接入新模型、功能升级等调整进一步提升了新版通义 App 的实用性,而产品界面、交互体验的变化则是从设计层面,让通义 App 更加易用,也更具温度。

过去的通义 App 同样具备不俗的实力,但在用户友好度上仍有优化空间,未能向用户充分表达、沟通其实力

以原版通义的主页面(下图右 2)为例,可以看到界面以文字为主,并集合了不少其他功能。这种设计虽然可以帮助用户快速跳转,但也可能导致用户在刚开始使用时摸不着头脑,需要一定的学习成本。

新版通义 App 通过做减法,让产品设计更加简洁清爽,突出了核心功能,也拥有了更具亲和力的交互体验。

现在,打开通义 App 后,映入眼帘的是更具亲和力的人物形象,通义官方将其称之为 " 邻家女孩 "。这一形象可以视作是整个通义智能体生态的代言人,给人以亲切、温暖的感受。

对大多数用户而言,首页主智能体是他们与 App 交互的核心入口,这一形象的变化能够迅速拉近用户与产品之间的距离,降低使用时的陌生感和距离感。" 邻家女孩 " 下方的文字还会不断变化,询问用户的心情,或是用表情符号让文字更为活泼。

在使用通义 App 的过程中,我们也能感受到与这一形象相符合的贴心体验。通义 App 在 QwQ-32B 智能体中推荐了这样一个问题:" 如果你是人类,如何过幸福的一生?" 模型给出的回答不仅包括实操建议,还撰写了鼓励的话语,既贴心又实用。

新版通义 App 在其他方面的设计和调整,也进一步降低了用户使用的门槛。例如,保存用户过去聊天记录的板块原本被分为助手、工具和角色,这一页面还融合了与通义进行语音交互的功能。

而在新版通义中,左滑后进入的对话记录、个人资产页面划分更加易懂,被分为对话记录、我创建的、我聊过的智能体,用户能通过这些名称更直观地找到自己所需的信息。

使用频率很高的拍照讲题、实时记录等功能,被调整到主页输入框上方,用户可以一键切换。

右滑后,通义 App 将代码、纪要等生产力工具和视频生成、绘图、角色扮演整合到一个统一的智能体生态中,在中心位置呈现用户最新使用的智能体与其他热门应用,让用户无需过多点击就能直达目标。

一些趣味的 AI 玩法能让用户使用 App 的体验更加轻松,不过,并不是所有用户都会高频使用此类应用。在新版通义 App 中,这些智能体的位置被放在实用工具之后,用户可以下滑点击,或是通过搜索直接访问。

谈及这些升级,通义产品负责人认为,他们不仅要通过强大的 AI 技术能力帮助用户解决实际问题,还要让用户在使用中感到更方便、更懂我。AI 应用的未来不仅仅是简单的提效工具,更是一个能够理解、陪伴并提升用户生活质量的贴心 AI 助手。

三、Agent赛道爆火,通义积极布局

新版通义 App 的发布,正值 AI Agent 应用的爆发期。2024 年底,Anthropic 发布了 MCP(模型上下文协议),以统一标准规范了大模型应用程序与外部数据源和工具的集成。

进入 2025 年,OpenAI 发布了 Operator 预览版本,支持购物、订票等服务;而 Deep Research 这类深度研究工具,也体现了 Agentic AI 的思想。

在过去,通义已经在基础模型领域有深厚积累,涵盖文本、图像、语音、视频,开源模型广受全球开发者认可。此外,通义 App 中积累了大量专业领域智能体,已经拥有一定的用户认可,但尚未完全破圈。

新版通义 App 主页面引入的超级智能体,有望凭借新的形象,成为加强用户与智能体连接的纽带。

通义 App 的 C 端化转向,也符合这段时间以来阿里的 AI To C 战略。去年年底,通义 App 团队从阿里云分拆,并入阿里智能信息事业群,而原有基础模型团队则仍然保留在阿里云体系内。

产品与研究的相对独立,让通义 App 与一线用户离得更近,也能更准确地把握用户的需求,响应市场变化。

未来,通义 App 会持续上线更多千问大模型新能力,还会把阿里多个先进模型能力融入到产品应用中,为用户提供更加丰富的智能体验。

作为潜在的发展方向,现有的主智能体或许能在未来成为智能体分发入口,根据用户需求智能调用相关智能体,进一步提升用户体验。

结语:通义产品理念重塑,阿里 AI To C 进行时

本次通义 App 的全新升级,不仅仅是技术层面的进化,更是产品理念和用户体验的全面焕新。

要真正做好一款 To C 产品,技术硬实力仅仅是基础。如何挖掘、创造用户的需求,找到用户的高频使用场景,创造与用户的情感连接,是任何一款想要获得 To C 成功的产品的必答题。在 "Agent 元年 " 推出的新版通义,正探索这些挑战的最新解题思路。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 数学 高考 理科
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论