量子位 01-21
大模型商用格局雏形初现:Tokens用量决高下,火山引擎问鼎2024
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型应用落地元年,谁家业务更值得关注?

Tokens 使用量,正在成为最关键的衡量指标。

量子位结合市场数据观察,2024 下半年国内大模型商用落地日均 Tokens 消耗量翻了近 10 倍,从 1000 亿级规模到 10000 亿规模,只用了 6 个月,月复合增长率达到 45%。其中,10-12 月增长进一步提速。

其中,只有 1 家云厂商商用 Tokens 日均消耗量的月均复合增长率超过 60%

它就是火山引擎

5 月份,它还停留在日均百亿级 Tokens 水平,不及全行业 1/5;8 月初突破千亿 Tokens 大关,并在之后保持迅速增长,12 月日均 Tokens 市场份额占比超 50%,超过其他玩家份额总和。

(初期市场变化迅速,整体估算会偏小。各厂商数据不包含各家自研模型服务商的应用消耗,比如火山引擎——豆包 APP)

什么概念?

这意味着平均每秒并发 Token 数约为 750 万。按照一个生成式 AI 模型单次响应平均需要处理 1000 个 Tokens,每秒就要处理 7500 个用户请求。

突然拉开差距,背后核心影响因素还是AI 原生应用爆发

根据对外披露数据,截至 12 月中旬,豆包大模型的日均 Tokens 使用量已超过 4 万亿,较七个月前首次发布时增长了 33 倍。

这一趋势给 To B 层面也带来深刻影响,最新披露的商用落地日均 Tokens 规模就是最直接的证明。

透过这一数据,大模型产业落地情况,在此变得更加清晰了一些。

为什么是 Tokens 消耗量?

在 LLM 中,Token 是模型理解和生成的最小意义单位。它是将自然语言文本转换成可理解格式的关键步骤。

作为原始文本数据与 LLM 之间的桥梁,Token 能帮助模型确保文本的连贯性和一致性,有效处理各种任务,如写作、翻译和回答查询。

随着趋势发展,下一个 Token 预测的方式也逐渐来到多模态领域,视觉 Tokenizer 能将视频和图像转换为离散 Token,文本和音频的 Token 也可以进一步合并为一个多模态联合词汇表……这意味着,文字、图片、视频、语音等不同模态信息都可以经过 Token 被标准化为统一的符号系统。

在行业落地层面,这一定义也被进一步认可。

阿里集团吴泳铭曾在演讲中提到,生成式 AI 让世界有了一个统一的语言—— Token。它可以是任何文字、图像、视频和声音的代码。大模型可以通过物理世界数据的 Token 化,理解真实世界的方方面面,有了这样的理解,AI 就可以模仿人类去执行物理世界的任务,这将带来新的产业革命。

那么,Token 作为单位能衡量什么呢?

预训练语料规模、上下文长度、推理长度……甚至是商业价值。

首先,模型预训练用了多少 Token 语料,代表了它的基础知识储备含量。目前市面上的通用大模型,预训练语料库规模都在几万亿 Tokens 水平。

其次,模型能够理解多少 Token 的输入和输出,反映了它的理解能力。大模型的上下文能力、处理速度,也是以 Token 为单位衡量。

第三,Token 还是大模型推理算力的计量单位。比如底层芯片厂商如今都会通过 " 每秒生成 Token 的数量 " 来证明自家产品的硬件能力。甚至如果有的模型参数未公开,也能通过它的 Token 生成速度来倒推模型规模(在相同硬件上即可推算)。

最后,几乎顺理成章地,Token 也成为大模型 API 的定价单位。

目前云厂商为大模型的定价模式固定为:千输入 Tokens 和千输出 Tokens。经过 1 年价格战,现如今大模型的价格已经被打到 1 元可买百万 Tokens。

OpenAI API 部分定价

各家如何降价?背后也是一套学问。

据火山引擎智能算法负责人、火山方舟负责人吴迪透露,大模型 API 定价是一个科学计算的结果,其中综合了 AI Infra 承载力、市场未来用量、模型成本下降三个变量

在国内,云厂商也早已用大模型日平均调用量来证明自家云服务能力。包括字节、百度、腾讯在内,都在长期披露此数据。

而日调用量的单位,还是 Token。

Tokens 消耗量暴增,为何是现在?

大模型趋势开启后,全行业 Tokens 消耗量与日俱增。

2024 下半年开始,几乎到了有史以来最凶猛的增长期。

IDC 分享,2023 年 12 月中国生成式 AI 日均 Tokens 处理规模(除去自有业务和生成式 AI 应用)还停留在 35 亿。4 个月后,该数字翻了将近 10 倍;再过半年后,这个数字已经预计为 1.12 万亿,一年时间翻了 320 倍。

结合厂商们近日披露的数据,这种趋势显然还在继续。

不过,为何是现在?

一方面,从技术角度来看,RAG、智能体、多模态兴起进一步拓宽大模型应用落地场景,加速了整体趋势进展。

大模型应用落地,最首要的难题就是如何让它更懂垂直领域、私域问题,让它能帮助某个特定企业解决实际场景问题。

RAG、向量数据库的优势正好可以解决这一问题。它能快速将企业积累的海量数据充分应用,解决大模型落地的 " 幻觉 " 问题。与 Agent 相结合,RAG 可以快速落地于企业客服、AI NPC 等场景。过去一年中,RAG 也是云厂商们主推产品之一。

Agent 则开启了新一代智能交互范式,在 2024 年几乎呈现了爆发式增长。从个人助手到企业级解决方案,Agent 开始出现在金融交易、医疗诊断等垂直领域;通用领域,手机、PC 等终端拥抱生成式浪潮,也选择将 Agent 作为切入口,重塑 OS 以及交互方式。

而多模态 AI 趋势,则进一步拓宽了大模型应用落地的范畴。人类接收的信息 80% 来自视觉,视觉将能极大程度拓展大模型的能力便捷。比如以 Sora 为代表的视频生成技术已经给全球影视行业带来冲击与新思考;AI 视频通话成为 Apple Intelligence 最引人注目的能力之一;此外,以谷歌 NotebookLM 为代表的 AI 播客类应用也杀入大众视野,AI 应用本身也因为多模态趋势而变得更加丰富。

这都为大模型应用落地打开了更多新思路。

另一方面,随着一些标杆案例出现,大模型红利已经变得不容置疑。它不仅能帮助企业增效,而且落地周期短,千行百业对大模型都有着强烈需求。

IDC 调研显示,大模型落地周期多在 6-12 个月(48.5%)和 12-18 个月(30.3%)之间。相比于其他 IT 解决方案可以更快上线,尤其是对于互联网企业或者已有 AI 应用基础的企业。

预计未来一年,大模型可帮助企业降低 18% 成本、增加 2% 收入、缩短 24% 流程时间,提高 17% 员工工作效率、提高 7% 资产利用率、提高 19% 产品创新水平。

比如互联网行业对于运营成本降低和产品设计创新有很突出需求,搜索问答、广告推送、商品推荐、营销文案生成、教育培训、办公辅助等均已开始规模化应用。

金融、智能终端、游戏、教育科研、汽车等领域的需求也在愈加明确,AI 应用场景还在不断深入。

供给侧,行业内基础大模型格局逐渐稳定、大模型产品矩阵日渐完整,千行百业的需求到了可以实现的时刻。

最关键的是,模型费用在不断降低、模型能力在不断丰富,大模型行业在朝着更普惠的方向发展。

比如火山引擎 Force 冬季大会上,豆包视觉理解模型正式发布,为企业提供极具性价比的多模态大模型处理能力,0.003 元 / 千 Tokens 输入,一元钱可以处理 284 张 720P 图片,比行业价格便宜 85%。

两股趋势相融合,也就不难理解为何在 2024 下半年,市场整体 Tokens 使用量暴增。

数据增长背后是大模型在各个领域落地结果。

以火山引擎披露数据为例。豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC 等智能终端,覆盖终端设备约 3 亿台,来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。

最近 3 个月,豆包大模型在信息处理场景的调用量增长了 39 倍,客服与销售场景增长 16 倍,硬件终端场景增长 13 倍,AI 工具场景增长 9 倍,学习教育等场景也有大幅增长。

Tokens 成本还会降,规模化增长未到瓶颈

透过一系列大模型商用落地数据,大模型整体趋势发展脉络也更加清晰。

参考赛迪顾问《2024 中国 MaaS 市场发展研究报告》,MaaS 市场发展呈现出 4 方面特点:

第一,Agent 加速下 AI 应用开发门槛持续降低,模型将进一步在场景中深度应用;

第二,成本因素影响,大小模型协同将成为主流趋势;

第三,模型推理工具链生态的不断完善,将提高 MaaS 的模型部署效率;

第四," 公有云 + 专有云 " 的 MaaS 部署模式将为企业用户提供安全与成本兼顾的解决方案。

MaaS 市场内,Tokens 成本还会进一步下降,规模化增长没有到瓶颈。

第一,大模型训练成本增速放缓。随着 o1 范式开启,推理侧算力需求将被更加重视。同时以 DeepSeek V3 为代表的模型还在进一步优化训练成本。

第二,算力领域来到 " 黄氏定律 " 时代,"GPU 将推动 AI 性能实现逐年翻倍 "、" 没有任何物理定理可以阻止 AI 数据中心扩展到一百万芯片 "。

第三,云厂商内部模式逐渐跑通,渠道进一步打开、生态进一步建立,成本也能进一步优化。

行业内对于未来的预估,也十分有信心。火山引擎智能算法负责人吴迪曾表示,2027 年豆包每天 Token 消耗量预计超过 100 万亿,是原来的 100 倍以上。

对应来看,当下 Tokens 消耗量的暴增,或许还只是大模型应用落地爆发的开始,真正的规模化增长远没有到来。

现在,更像是一个冲出起跑线的时刻。

而谁能成为这场角逐中的引领者,透过 Tokens 消耗量这个核心指标,可以提前窥见端倪了。

1111111   

大模型趋势正在进入全新阶段:大规模商用落地。

生产力释放背后,商业机会不断涌现。我们希望通过这一系列栏目提供一种视角,分析大模型应用落地早期阶段浮现出的种种规律变化,从技术维度把握创新浪潮背后的演化路线。

以上是量子位最新原创系列策划栏目「模力熵增」第二期。

—    —

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 物理 量子位 翻译
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论