智东西 09-09
百度最强深度思考模型来了!性能追平GPT-5
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 王涵

编辑 | 漠影

智东西 9 月 9 日报道,今天上午,在百度 Wave Summit 深度学习开发者大会上,百度正式发布深度思考模型文心大模型 X1.1、大模型开发框架飞桨框架 V3.2、智能代码助手文心快码 3.5S 以及一系列开发组件更新。

相比于深度思考模型文心 X1,文心大模型 X1.1 的事实性能力提升 34.8%,指令遵循能力提升 12.5%,智能体能力提升 9.6%,在多项基准测试中超越 DeepSeek-R1-0528。

目前,用户可以在文心一言官网、文小言 APP 使用文心大模型 X1.1。文心大模型 X1.1 已正式上线百度智能云千帆平台,对企业客户及开发者全面开放使用。

一、超越 DeepSeek,对标 GPT-5!百度文心大模型 X1.1 多项基准测试获 SOTA

会上,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰正式发布了文心大模型 X1.1 深度思考模型。

据王海峰分享,文心大模型 X1 是基于文心大模型 4.5 训练而来的深度思考模型,相比文心 X1,文心大模型 X1.1 的事实性提升 34.8%,指令遵循能力提升 12.5%,智能体能力提升 9.6%。

在权威基准评测中,文心大模型 X1.1 在多个任务上超越 DeepSeek-R1-0528,取得第一名的成绩。同时,与国际顶尖模型 GPT-5 和 Gemini 2.5 Pro 相比,效果基本持平。

文心大模型 X1.1 主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。

在客服场景,文心大模型 X1.1 可以识别用户客诉的情绪和需求,通过思考和调用后台多个工具,自动完成客诉处理的服务流程。

基于文心大模型 X1.1 的基础,百度开发剧本驱动多模协同的数字人技术,可以通过大语言模型生成剧本,驱动语音语调和数字人的形象,最终形成完善的数字人。

百度集团副总裁、深度学习技术应用及国家工程研究中心副主任吴甜透露,今年 6 月 15 日,在百度电商平台,罗永浩数字人直播的 GMV 已经超过其本人直播的 GMV 表现。

数字人主播的问答转化率和问答接待率都可以超越真人,其超长待机能力在 70 分钟以上的场直播中优势明显。

二、飞桨文心生态开发者超 2 千万,百度内部 45% 新代码由 AI 生成

文心大模型的能力拓展和效率提升,得益于飞桨文心的联合优化。

大会现场,百度发布了飞桨核心框架 3.2 版本,该版本在大模型训练、硬件适配和生态支持上全面升级。

百度飞桨同步升级了大模型开发套件 ERNIEKit 和高效部署套件 FastDeploy,还发布了 AI 科学套件,包括智能流体力学开发套件和智能材料科学开发套件,以及大规模计算图数据集 GraphNet。

据最新数据披露,飞桨文心生态开发者达到 2333 万位,服务企业达到 76 万家。

AI 编程方面,百度还发布了文心快码 3.5S,新版本的代码生成准确率提升 26%,其中复杂场景提升 38%。可以驾驭更复杂的任务。

据悉,目前,百度中有 45% 的新增代码是 AI 生成的,文心快码已累计服务超过 1000 万位开发者与上千家企业。

结语:飞桨文心联合优化,降低开发与技术落地门槛

飞桨与文心的深度联合优化,持续推动着文心大模型能力的拓展与效率的提高。文心快码 3.5S 的发布进一步降低了 AI 编程的门槛,为开发者与企业带来了高效且强大的工具。

在产业落地层面,无论是数字人直播还是文心快码的落地,这些实践为 AI 与实体经济融合提供了具体参考路径,在电商、编程开发等领域对行业智能化转型产生了实际影响。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

百度 深度学习 罗永浩 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论