作者 | 徐豫
编辑 | 漠影
DeepSeek 后时代," 开源 " 和 " 免费 ",力压 " 参数量 " 和 " 模型架构 " 之争,成为大模型圈新的风暴中心。
智东西 2 月 15 日报道,不到一个月内,百度、DeepSeek、OpenAI、谷歌、xAI 等主流大模型厂商们密集官宣,旗下闭源高端 AI 模型将转向开源,而主流 AI 产品计划免费向用户开放。这不仅是大模型竞赛进入新一轮白热化阶段的信号,也是 AI 技术走近寻常百姓家的关键节点。
百度和 OpenAI 两家更是战况焦灼,前后脚剧透下一代新模型、深度搜索功能、生成式 AI 工具免费可用,以及开源计划。
2 月 14 日,百度宣布将在接下来的几个月内,陆续推出文心大模型 4.5 系列,并且新一代文心大模型将自 6 月 30 日起开源。这也是百度旗下大模型首次开源。与此同时,有市场消息称,百度今年还会发布文心大模型的5.0 系列。
再往前一天,百度官宣,自 4 月 1 日起,文心一言将全面免费,用户可以通过 PC 端和 APP 端,免费使用最新款的文心系列模型。同日,OpenAI CEO 奥尔特曼在 X 上发布长文,官宣计划在几周,或者几个月内,发布新一代模型 GPT-4.5(内部代号 "Orion")和GPT-5 系统。
奥尔特曼还在文中写道,其 ChatGPT 的免费套餐,也将包括对 GPT-5 的无限制聊天访问权限。换句话说,用户不仅可以免费使用 ChatGPT 的搜索功能,后续还可以免费用上 OpenAI 最先进的模型。
本月早些时候,谷歌也宣布了将开放其最新的Gemini 2.0 系列模型。马斯克则 2 月 14 日接受采访时谈道,计划将在一到两周内推出新一代 AI 模型 Grok 3,性能或将超越 GPT 系列,并且很大概率延续开源策略。可以说,上述几家大模型厂商都卯足了劲,准备在这个节骨眼大干一场,谁也没有打算让着谁。
另外,百度和 OpenAI 均计划逐步开放深度检索相关功能。
OpenAI 方面称,深度研究功能起初会提供每月 2 次的免费使用机会、每月 10 次的 Plus 用户使用机会,而所有 Pro 用户均可在移动端和桌面端 APP 上使用该功能。百度文心一言的深度搜索功能现已上线 PC 端,从 4 月 1 日起即可免费使用,APP 端也即将上线。
时至今日,大模型能够走向免费、开源、开放,背后离不开技术突破所带来的训练和推理成本下降。
2 月 11 日,百度创始人李彦宏在阿联酋迪拜出席 " 世界政府峰会 " 上时分享道," 在过去,当我们谈论摩尔定律时,每 18 个月,性能水平或价格都会减半。但今天,当我们谈论大型语言模型时,可以说每 12 个月推理成本就降低 90% 以上。"
OpenAI CEO 奥尔特曼近日也在博客上表达了类似观点。据他观察,AI 价格的下降显著刺激了 AI 使用量的增长。奥尔特曼称,AI 使用成本正大幅下降,每年比前一年便宜约 9 成,这也有助于 AI 普及更多用户。
用大模型这件事儿越来越便宜,不仅让各中小型企业本地化部署大模型的价格门槛更低,还能开发出更适用的大模型衍生品;也有助于普罗大众把用 AI 产品变得日常化,动手搭建个性化的 AI 工具、AI 产品、AI 智能体,最终共同为整个 AI 生态持续注入活力。
那么,大模型凭什么敢免费开放,究竟如何提供高性价比的 AI 算力,先进模型能力到底强在哪?通过拆解百度多项大模型开发经验,我们找到了自研芯片、数据中心和 AI 计算平台,以及推理技术架构深度优化这 4 大答案。
一、文心系列打头阵,深度搜索功能即将全量上线
时隔大半年,百度文心大模型即将连续刷级。据百度方面最新消息,文心大模型 4.5 系列将在未来几个月内陆续推出。另据近期市场消息,文心大模型 5.0 系列也将在年内发布,时间可能是今年下半年。
2023 年 10 月,百度发布了文心大模型 4.0;去年 4 月,文心大模型 4.0 工具版上线;去年 6 月,4.0 系列中性能较强的文心大模型 4.0 Turbo 正式推向市场。结合 4.0 系列的发布节奏来看,或许百度已用实际行动印证了李彦宏所说的 " 创新的本质 "。在他看来,创新的本质基本遵循 " 如果你能将成本降低一定数量、一定百分比,那么这意味着你的生产率提高了相同的百分比 "。
有知情人士剧透,文心大模型 4.5 和 5.0,将在多模态能力上有明显提升。OpenAI 则选择将 o3 推理模型等多种 AI 技术和能力,集成到即将发布的 GPT-5 AI 系统中。
同时,文心大模型的视觉智能能力也是其一大特色。基于此,百度或将代替 OpenAI 和谷歌,接管国行版 iPhone 中 Apple Intelligence 的视觉智能。据外媒 2 月 14 日报道,百度将负责承担 " 国行版 "Apple Intelligence 所提供的图像识别、检索等功能。
目前,百度自研的 iRAG(image-based Retrieval-Augmented Generation,基于图像的检索增强生成技术)结合了检索增强(RAG)技术和视觉智能,可以检索、比对、参考百度搜索引擎的大量图片资源,然后通过文本生成质量更高、元素更逼真的 AI 图像,减少传统文生图技术易出现的 " 幻觉 " 现象。
实测表明,具备 iRAG 能力的文心大模型 4.0,所生成的人物形象及其动作都更加贴合文字描述和物理逻辑。此外,文心大模型 4.0 支持一次生成多张AI 图像。
▲左图由文心大模型 4.0 生成,右图由文心大模型 3.5 生成(图源:百度)
而单从检索增强方面来看,百度的生成式 AI 工具文心一言,比 OpenAI 的 AI 聊天助手 ChatGPT,在联网检索准确性、内容描述的细致程度上,都更胜一筹。
先抛给它们一个有唯一解的问题:"2025 年中国的法定假日有哪些?"
文心一言发现了今年是中秋节与国庆节连休,但 ChatGPT 弄错了中秋节的日期,并且没有发现连休假期的特殊情况。
再抛给它们一个开放式的问题:" 哪吒 2 中,在做藕粉的过程中,出现了哪些让哪吒感觉不适的操作?"
ChatGPT 联网检索后生成的答案有偏离影片事实的部分,文心一言则更加准确地描述出了影片细节内容。
今年内,文心一言还有望胜任一些更专业化、行业门槛更高的内容。2 月 13 日,百度官宣文心一言网页版上线了深度搜索功能,App 端也即将同步升级。
基于该深度搜索功能,文心一言可以应对民生、创业、经济分析类等专业咨询类的问题,内容回复预期达到专家级水平,在一定程度上突破了过去查询渠道较为小众、专业领域解析难度大等 AI 搜索瓶颈。
除了增强搜索能力,百度方面透露文心一言的思考、规划和反思能力都进一步提升,从而能够更 " 聪明 " 地使用多种工具解决复杂任务。
例如,遇到一些不能简单处理的问题,文心一言可以先 " 阅读 "、" 理解 " 用户上传的文档,再搜索、分析相关内容,最后综合考虑私域资源和公域资源信息,得出结果。
二、" 芯 " 动力撑腰,大幅提升模型训练效率
当前,大模型及其产品性能增强的同时,还要控制、降低开发和使用成本,以实现向用户开源并免费开放。这背后离不开整体算力架构的提效优化。
首先是算力 " 油门 ",即芯片。
百度自研的AI 芯片 " 昆仑芯 ",专注于大模型训练和推理优化,驱动一系列文心大模型缩短训练周期,并降低开发成本。
其现已升级至第三代昆仑芯 P800。该芯片采用的是 XPU 架构(eXtensible Processing Unit,可扩展处理单元),这种处理器架构比传统的 CPU(中央处理单元)和 GPU(图形处理单元)灵活度更高,可以根据具体需求和应用场景来扩展和定制,从而减少算力的浪费,并提高计算任务的处理效率。
同时,昆仑芯 P800 的显存规格比同类主流 GPU高出 20% 到 50%,可以更好地适配 MoE(Mixture of Experts,混合专家模型)架构,节省算力消耗,来整体降低开发成本。
该芯片还支持 8-bit 量化技术,占用更少的显存,也能保持较高的推理精度。这意味着千帆 DeepSeek一体机单机 8 卡,也能带动满血版 DeepSeek 等参数量为671B的大模型。
其次是算力 " 油箱 ",即数据中心。
本月,百度智能云宣布完成昆仑芯三代万卡集群的搭建,并计划进一步将万卡规模拓展至三万卡。
这一自研万卡集群可形成规模效应,通过多任务并行处理、弹性算力管理等方式减少算力闲置的情况,以提高计算资源利用率,进而降低模型训练的整体算力成本。
未来,其规模如果按计划从万卡扩大至三万卡,规模效应加剧,百度的云计算服务整体成本或将进一步降低。
再者是算力 " 车底座 ",即 AI 计算平台。
百舸平台是百度智能云推出的一个高性能 AI 计算平台,主要用于支持大规模深度学习。其通过提升带宽有效性、减少散热能耗、优化模型训练效率等方式,来降低模型训练整体成本。
据百度方面最新数据,百舸 4.0的带宽有效性已提升至90% 以上;训练主流开源模型的集群 MFU(通常用 MFU 来表示 GPU 的有效利用率)提升至58%;模型训练故障恢复时间从小时级降低到分钟级,集群有效训练率达到98%。
三、多平台创新,拉动模型推理成本打骨折
训练和推理都是模型开发及其应用的关键环节,因此单单降低模型训练的开销还不够,模型推理的成本,也需要通过优化推理技术来进一步控制。
截至发稿,开源社区 Hugging Face 上点赞数排行第一,是国产模型 DeepSeek-R1。DeepSeek-R1 是基于 DeepSeek V3 基础模型训练的高性能推理模型,专注于提升推理能力。
随着主流大模型厂商相继接入、蒸馏 DeepSeek-R1 和 DeepSeek V3 模型,并且计划开源自家先进模型,这一格局或将被改写。
不过,调用 DeepSeek-R1 和 DeepSeek V3 的价格却有高有低。
目前来看,包括 DeepSeek 自家平台在内,调用 DeepSeek-R1 和 DeepSeek V3 每百万 Tokens 的单价,定价最便宜的是百度智能云千帆大模型平台。其 R1 的调用价格为 DeepSeek 官方刊例价的半价,V3 的调用价格是 DeepSeek 官方刊例价的3 折。
总的来说,百度方面主要通过优化以下3 大板块的推理技术,来降低推理成本。
1、百度智能云千帆大模型平台针对 DeepSeek 模型 MLA 结构(Multi-Level Attention,多级注意力)深度优化,一方面同步调用计算、通信和内存资源进行推理,另一方面使用 Prefill/Decode 分离式推理架构在推理前先预处理数据,从而使模型满足低延迟标准的同时,大幅提升了吞吐量,并降低了推理成本。
2、百度智能云千帆大模型平台还通过增强系统容错能力、减少多轮对话等场景中的重复计算、增强安全防护栏来整体降低推理成本。
3、有业内人士分析称,百度飞桨深度学习框架,以及百度飞桨自研的并行推理、量化推理等大模型推理相关技术,可以迁移应用于文心一言等百度旗下的 AI 工具,从而降低这些 AI 工具的推理成本。
结语:国内外大模型再掘 AI 增量,智能化加速平民化
作为首批免费开放 AI 模型的大模型厂商,百度与 OpenAI 等竞争对手一起,拉开大模型新一轮价格战的序幕。但这一次," 省成本 " 不仅仅是为了大模型厂商自身的经营,更多是把重心放在了 AI 技术推广上。
而百度在芯片、模型训练、模型应用方面持续探索,通过技术创新,让 AI 逐步走向人人可用、人人用得起、人人用得好的阶段。
未来,无论企业或者个人是否从事 AI 行业,都有机会在日常生活中收获 AI 技术、AI 工具、AI 模型的智能化体验,继而作为一份子加入 AI 浪潮,形成 AI 硬件开发商、大模型厂商、云服务商、个人等主体共促 AI 生态开放发展的局面。
登录后才可以发布评论哦
打开小程序可以发布评论哦