IT时报 01-05
年度AI模型大盘点
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

见证从工具到伙伴的蜕变 | 图源:豆包 AI

作者/   IT 时报  潘少颖   孙永会

编辑/   潘少颖   孙妍

当清晨的第一缕光透过窗帘,一位懂你日程、知你冷暖的 "AI 伙伴 " 也开始了一天的工作。

一杯咖啡氤氲的香气里,行程梳理妥当,甚至晨会的简短发言提纲也已拟好;通勤路上,昨晚未看完的项目文档转化为语音播报,自动标注出关键数据;在工位前,面对庞杂的数据报表,秒级生成可视化图表;下午和客户见面前,输入核心思路,它快速生成 PPT 初稿,还匹配符合品牌调性的排版与配图;回家途中,语音告知晚餐需求,它会推送适配食材库存的菜谱,甚至联动智能家居提前预热厨具;入夜,当你准备休息,它已筛选好明日最重要的资讯,并道一声 " 晚安 " ……

就像水电般自然存在的基础设施,如果说 2024 年是试探性地触碰 AI 的年份,那么 2025 年,我们真切地与 AI 共同生活、并肩工作,AI 应用也正在进行 " 全场景渗透、全流程赋能 " 的蜕变,我们的时间感知、决策模式甚至生活节奏,都在被悄然重塑。AI 改变的,远不只是工作效率。

这份榜单,也不只是评点优劣,或许并不那么完美,但更想记录 AI 如何以惊人的速度重塑新范式。我们审视榜单,既是在万千选择中寻找最可靠的 " 伙伴 ",也是追问:当 AI 的能力深入核心领域,我们该如何驾驭,如何让 AI 在规范中更好助力这场 " 智变 "。

A   面

豆包

破圈的 " 国民级 AI 应用 "

马年春晚,哪个 AI 伙伴会承包观众和现场的互动?这次是豆包,它要和火山引擎一起,登上 2026 年央视春晚的舞台。最近,关于豆包的消息不少,比如 DAU(日活跃用户数)破 1 亿、豆包大模型日均 Token 调用量已超 50 万亿、超 100 家企业累计用量超 1 万亿……成为中国市场用户体量最大的 AI 助手,成为 " 国民级 AI 应用 "。

亮眼的数据来自它的技术 " 进化 " 速度,从豆包大模型 1.5 到 1.8,豆包用了大半年时间。比如在复杂推理、竞赛级数学、多轮对话和指令遵循等测试集上,豆包 1.6-thinking 的表现跻身全球前列,在 60 个公开评测基准中取得 38 项最佳成绩;到了豆包 1.8,其工具调用能力、复杂指令遵循能力及 OS Agent 能力均得到增强,解锁了 " 能看、能写、能做、能规划 " 的全能技能。比如在视觉理解方面,豆包 1.8 的单次视频理解帧数从 640 帧倍增至 1280 帧,支持以低帧率理解超长视频,并能调用工具对关键片段进行高帧率理解,该能力可广泛用于在线教育、产品质检等场景中。在多项公开评测中,豆包 1.8 在视觉推理、通用视觉问答、空间理解及视频理解等均获得最佳或接近最佳成绩。

与此同时,其视频生成模型实现了从 " 无声画面 " 到 " 音画精确同步 " 的质变,推出的 "Draft 样片 " 功能,预览与成片高度一致,可帮助创作者提升 65% 的效率。

上榜理由

豆包呈现了一个独特的样本:它并非以某个单项技术参数的 " 第一 " 定义自己,但它将 " 大模型 " 具象化为 " 行动者 "。超越炫目的演示,从 " 对话 " 迈向 " 行动 ",是 AI 更具根本性的范式演进。当 AI 不再仅停留于生成文本与图像,而是开始主动调用工具、操控界面、串联跨平台的复杂流程时,便在实质上介入了真实世界的运行轨道。这固然会引发新的摩擦与思考,但也正因其深入肌理,才可能催生出前所未有的协作形态与生产力革新。

腾讯混元

从 " 出圈 " 到 " 入圈 "

2025 年,不少人的微信里多了一个 " 好友 " ——元宝,以一种新的方式,定义了 " 智能 " 在社交生态中的存在形态,是一个不需要下载、注册、刻意打开的独立应用,而是一个 " 国民级社交平台 " 里随时待命的 " 伙伴 "。

之前,腾讯元宝最让人眼前一亮的,是在国内头部 AI 应用中率先实现 " 混元 +DeepSeek" 双模型协同,用户能根据需求切换,写代码、解数学题时用响应更快的 DeepSeek,分析长文档、做深度策划就切换到擅长逻辑推理的混元,让不同场景的效率都能拉满。

依托腾讯生态的天然优势,元宝的场景渗透也愈发丝滑。当收到一份复杂的 PDF 文档,无须跳出微信,转发给元宝,一句 " 帮我总结核心要点并找出行动项 ",清晰的摘要便即刻返回;开会时来不及记录,将一段冗长的语音消息丢给它,很快就能得到结构清晰的文字纪要,让 AI 能力自然融入社交与办公日常,从一种需要 " 仪式感 " 的调用,变成了像发送消息一样自然的日常习惯。

就在不久前,腾讯元宝新上线了 " 任务提醒 " 功能,被视为从 " 对话助手 " 向 " 个人任务智能体 " 演进的标志,能理解自然语言、分解复杂任务并推进执行。比如 " 提醒我每周一、三、五健身,如果下雨就提醒我在家做瑜伽 ",元宝就能理解,把智能助手的实用性拉到新高度。

从双模型出圈,到将 AI 能力以更自然、更紧密的方式融入每个人的社交中,可以看作是从 " 出圈 " 到 " 入圈 " 的转变。当 AI 可以无感地嵌入最高频的社交与办公场景,这种 " 无感化融入 " 所撬动的是对整个用户行为模式与体验期待的重塑。当技术日趋成熟,其终极价值将更取决于它能在多大程度上理解并服务于人类既有的、复杂的形态。未来的领先者,或许是那些善于让技术隐于无形的服务设计者。

通义千问

吃透 100 份文档的 "AI 学霸 "

长文本处理哪家强?或许有通义千问的一席之地。

通义千问在 2025 年发布了性能显著跃升的 Qwen2.5 和 Qwen3 系列模型,在预训练方面,Qwen3 的数据集相比 Qwen2 有了一定的扩展。通义官网数据显示,Qwen2.5 是在 18 万亿个 Tokens 上进行预训练的,而 Qwen3 使用的数据量几乎是其两倍,达到了约 36 万亿个 Tokens,涵盖了 119 种语言和方言。

通义千问在中文理解、逻辑推理等方面亮点较多。一方面是免费的文档解析功能,通义千问可解析网页、文档、论文、图书等类别。除了解析在线网页之外,针对单个文档,其能够处理超万页的极长资料,换算成中文篇幅约 1000 万字;而针对多个文档,可一键速读 100 份不同格式的资料。另一方面,增强了 Transformer 架构,面对古籍 / 生僻词解析不准、专业术语翻译混乱等难题,通义采用旋转位置嵌入(RoPE)技术捕捉文言时序逻辑,技术文档翻译同步保留专业术语一致性,准确率超 96%。

除了文本生成大模型,通义的图片生成大模型参数规模达 200 亿,其视频生成大模型支持一句话生成视频,也能根据提供首帧或首尾帧图片,生成一段丝滑流畅的动态视频。

在工作和学习中,长文档处理是很多人的刚需,通义千问展现了一种独特的价值:让处理海量、复杂的信息变得轻松。无论是万页文献还是一百份混杂的文档,它都能快速梳理脉络、提取精要,拓展个人研究与学习的深度边界。从文本到图像、视频的多模态创造力,让通义千问将核心能力融入正在寻求效率与深度的用户需求中。

WPS AI

一边 " 聊天 " 一边干活

2023 年,金山办公发布 WPS AI,围绕 AIGC(内容创作)、Copilot(智慧助理)、Insight(知识洞察)推出系列 AI 功能;2024 年,WPS AI 2.0 诞生,聚焦企业特定场景,用 AI 促进企业知识的智能化应用;2025 年 7 月下旬,推出以 WPS 灵犀为核心的 WPS AI 3.0。

数据显示,截至 2025 年 3 月底,WPS Office 全球月度活跃设备数为 6.47 亿。

在新版本中,智能创作升级是核心亮点之一。在 WPS Office 的部分组件中形成了左侧 Office 套件、右侧 WPS 灵犀的同屏交互形态。也就是说,使用者直接在右侧的对话框中用自然语言提出需求,AI 在识别意图后,即可对左侧文档区域进行修改,全程无须跳转其他应用。相比于其他产品,灵犀具备多轮对话、修改可控、格式保留等优势,能控制 AI 生成真实可用的成果。

一方面是门槛较低,使用者可以快速上手,通过对话就能实现文档创作;另一方面是数据处理,WPS 知识库能将使用者的云文档升级为知识库,每个人都可以在 WPS 知识库上搜答案、筛数据,基于私域知识写方案或者文档。

此外,WPS Office 引入了全新的 PPT 创作模式,使用者能在与 AI 对话中边聊边修改 PPT 大纲,还能二次精调模板、单页和版式,轻松 " 聊 " 出想要的效果。

智能办公已经不是新鲜事物,WPS AI 没有创造一个新的、需要刻意学习的产品,而是让 AI 化身为 Office 套件中一个随时待命的 " 灵犀 " 助手,所有操作在同屏内完成,生成的结果立即可用,这种 " 对话即创作 " 的体验,极大降低了智能办公的门槛。甚至,它让每个人沉淀在云端的海量文档,通过知识库功能 " 活 " 了起来,转化为可随时调用、支持决策的私域知识资产,成为格子间里人人手握高效创作的 " 利器 "。

当 AI 迅速融入人类的工作与生活,我们审视的目光也投向 " 硬币 " 的另一面。AI 快速发展的背后,难免伴随着尚未完善的短板与亟待解决的挑战。这些问题或许是技术落地时的体验落差,或许是创新探索中的合规边界,却也正是行业走向成熟的必经之路。

B   面

当 AI 迅速融入人类的工作与生活,我们审视的目光也投向 " 硬币 " 的另一面。AI 快速发展的背后,难免伴随着尚未完善的短板与亟待解决的挑战。这些问题或许是技术落地时的体验落差,或许是创新探索中的合规边界,却也正是行业走向成熟的必经之路。

Manus

被 Meta 收购 留得住用户吗?

2025 年,智能体 Manus 的发展轨迹堪称从狂热到冷却的戏剧性转折,年初,Manus 凭借 " 通用 AI 智能体 " 的概念迅速出圈,一段自主完成简历筛选、股票分析等任务的演示视频引发全网关注,内测邀请码被炒至 10 万元天价,估值一度飙升至 5 亿美元。

热度褪去后,产品的核心缺陷逐渐暴露。报道显示,从技术路径来看,Manus 以模型整合与后训练为核心,并没有自研模型。其技术门槛低也被印证,多个团队在短时间内成功复刻 Manus 并开源。

此外,有媒体报道,部分用户体验后,提出了运行速度过慢、token 使用量惊人、性能并不出色等质疑。公开信息显示,Manus 单任务运行成本约为 2 美元(约合人民币 14 元),较难满足实际场景中的低成本要求。

这些短板直接影响了用户的留存意愿。2025 年 3 月 Manus 访问量达到 2376 万,到了 5 月就跌到 1616 万。

如何扭转颓势?Manus 在 2025 年下半年进行了若干次升级,10 月 Manus 1.5 版本上线,针对速度、可靠性等痛点进行优化,12 月又新增了文生图功能,并整合进智能体工作流。12 月中旬,Manus 宣布,其 ARR ( 年度经常性收入)突破 1 亿美元,共计消耗 14 万亿 Token。

最新的消息是,Manus 正式被 Meta 收购,并创下 Meta 成立以来的第三大收购纪录,这或许是 Manus 最好的结局。

点评

Manus 的故事是 2025 年 AI 智能体领域一个极具代表性的样本,精准点燃市场对 " 通用智能体 " 的期待,快速引爆市场。但也有不少质疑的声音,比如缺乏自研基础模型导致门槛较低、易被复刻、运行速度慢、使用成本高等短板。

这个似乎充满短板的产品如今却卖了个好价钱,一方面是 Meta 在 AI 领域寻求突破的布局,另一方面也是其看清了 Manus 在通用智能体赛道上的潜在价值。" 智能体可落地 " 的价值,才是真正被市场看重的内核。概念亮眼是 " 敲门砖 ",能在实践中沉淀出可复用的能力,才是真正的 " 硬通货 "。

智谱清言

702 万月活 更应守住隐私

不会 PS 也能当设计师?输入 " 赛博朋克夜景,霓虹灯下雨巷 ","CogView4 模型 " 能够快速出高清图,升级玩法是用 " 清影 " 视频模块,比如描述 " 猫咪追蝴蝶的治愈动画 ",模型能够直接生成 6 秒短视频,还能调节分镜节奏。

凭借亮眼的多模态生成能力,智谱清言收获了不少用户青睐。公开数据显示,2025 年 1 月,智谱清言的月活跃用户数为 702 万,居国内 AI 产品的第 7 位。

但是,2025 年 5 月 20 日,国家网络与信息安全信息通报中心发布的通告称,在应用宝平台中发现 35 款移动应用存在违法违规收集使用个人信息的情况,其中包括智谱清言(版本 2.9.6)等,检测时间为 2025 年 4 月 16 日至 5 月 15 日,主要违规原因是 " 实际收集的个人信息超出用户授权范围 "。

这样的行为无疑戳中用户最敏感的痛点,人们不禁担忧:那些包含个人隐私的对话、基于使用习惯沉淀的偏好,乃至涉及职场上的工作文档,是否都在未被明确告知的情况下被过度采集、长期留存,甚至存在被滥用的风险?

就在 2025 年底,智谱传出 IPO 的消息,其技术底座也迎来了新一代的 GLM-4.7 模型,有望成为 " 全球大模型第一股 "。但能否守住 " 第一股 " 的牌面,智谱不仅要在技术上有所为,也要在使用用户数据时 " 有所不为 "。

在数据安全意识日益增强的今天,用户自然会对 " 榜上有名 " 的应用产生警惕。任何技术上的亮点,都可能被笼罩在隐私疑虑的阴影之下,最终制约其走向更广阔的未来。当 AI 渴望成为人类的创意伙伴时,它必须首先是一位值得托付的、恪守边界的信息管家。

排版/ 季嘉颖

图片/ 豆包   腾讯混元   通义千问   WPS AI   Manus   智谱清言

来源/《IT 时报》公众号 vittimes

E   N   D

大家都在看

请加「星标」不错过我们

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 智能家居 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论