远川研究所 前天
孤独的长跑者“商汤”,被质疑过,从未迷茫过
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

3 月 26 日,商汤科技发布 2024 年财报,总体收入同比增长 10.8%,亏损同比大幅收窄 33.7%,其中生成式 AI 增长 103.1%,营收占比从 2023 年的 35% 来到 64% [ 1 ] 。

考虑到时下生成式 AI" 退潮裸泳 " 的大背景,这种表现令人侧目。新旧势力纷纷遭遇 " 落地墙 " 围堵,商汤却像是每个班都有的学霸,别人还在回顾知识点,ta 已经开始刷题了。

在 AI 公司中,商汤的学霸光环向来耀眼。提到中国 AI 产业,商汤是绝不会忽略的一家公司。出道至今研发实力从未掉出过第一梯队,研发成果如数家珍。但光环背后,一度是面包和理想的长久拉锯。

2018 年— 2022 年间,商汤开始投入基础设施建设,研发费用率由此飙升,背负起巨大的盈利压力,但也由此生长出了独一无二的商业模式。如今守得云开见月明,是科技产业对长期主义者的又一次褒奖。

上海临港,距离特斯拉超级工厂 3 公里,是商汤 SenseCore AI 大装置所在地——商汤智算中心 AIDC,后者是当前亚洲最大的超算平台之一 [ 2 ] 。

商汤智算中心 AIDC

AIDC 正式启动于 2021 年,SenseCore AI 大装置的打造则从更早之前就开始了,是商汤埋的最深的一个伏笔。

2017 年,商汤创始人汤晓鸥在 CCF 青年精英大会提出深度学习的三大要素:算法设计、高性能的计算能力以及大数据 [ 3 ] 。同一时期,成为一个 AI 落地平台的愿景也在商汤内部逐步成型,自此开始了商汤对算力的前瞻性布局。

第二年,商汤开始在超算中心已有的 6000 张 GPU 的基础上,着手建设 SenseCore AI 大装置 [ 2 ] 。这是商汤研发费用飙升的开始,也是其 " 大装置 + 大模型 " 商业模式构建的起点。

SenseCore AI 大装置并不只是一个单纯的算力输出设施,而是包含提供底层计算基础设施服务(IaaS)与深度学习平台服务(PaaS)、模型部署及推理服务(MaaS)三大部分的能力,旨在为模型的整个生产周期提供全套标准化的工具链,以降低模型开发的资金和时间成本。

软硬件 " 两条腿走路 ",是 SenseCore AI 大装置区别于目前大模型生产工具的差异化分界点。

硬件工具主要由计算基础设施层提供。其中 AIDC 的算力规模是最直接的衡量指标之一。截至 2024 年底,商汤通过运营模式将算力总规模提升至 23,000PetaFlops, 同比增长 92% 支撑起了在中国大模型应用 top3 的市场规模。

商汤 AIDC 的差异化在于,训练上,采用了自动化多维并行策略,并且优化了通信和算子,明显提高了集群的训练效率,每秒处理的 Token 数量(TGS)可达 1600+,在未经特别优化的状态下,要好于 DeepSeek 官方报告。推理上,系统支持开源和自研双引擎的低比特量化推理,在内测商汤自己的多模态模型时,其推理能力比 2024 年 7 月日日新 5.5 发布的时候提升了 50%。如果拿来跑 DeepSeek R1,比如在推理吞吐性能关键指标上,比业界平均成绩要快 25%,比头部厂商效率也要高 15%。

商汤 AIDC 的软件部分涉及深度学习平台层、模型层。深度学习平台层可以理解为 " 模型生产流水线 ",提供包括训练数据平台、SenseParrots 训练框架、模型压缩工具及跨平台模型部署工具;模型层类似于一个模型制造工厂,基于商汤自研的基模型和特定场景的衍生模型,向客户直接提供模型产品。

软硬件工具环环相扣、一应俱全,使得客户可以自由地选择 " 套餐 ",既可以租用流水线和工具构建自家模型,也可以直接要求模型定制化服务。

就像一个超级卖场,消费者可以购买工具,也可以直接购买产品,卖场不仅提供产品说明、使用指导,还附带送货到家、上门安装等保姆级服务。

这是商汤 " 大装置 - 大模型 - 应用 " 三位一体战略的显现,构建了从底层算力到终端应用的极其完整的全产业生态链闭环,形成了商汤独特的竞争壁垒。

营收的增长标志着这一商业模式的走通,背后助推的是商汤始终保持高位的研发投入和大胆的前瞻性布局,而多年所积累的工程经验,也加速了商汤的盈利兑现,成为另一条护城河。

" 人工智能需要很多人工 ",是上一波 AI 浪潮的 " 疑难杂症 "。模型不是建好就能用,部署环节往往意味着大量的人力内耗,堵死了当年许多初创 AI 公司的盈利通道。

生成式 AI 以 " 预训练 -> 微调 " 的模式结构性地解放了一部分人力,却并没有降低工程经验的重要性,反而在诸多垂直领域,工程经验的厚度直接决定了模型落地的效果。

以自动驾驶为例,小鹏前自动驾驶副总裁吴新宙就认为自动驾驶本质是一个工程问题 [ 4 ] 。特斯拉入华不久的 FSD,端到端在算法层面做到了顶级,但落地层面投入不足,面对国内交规和路况水土不服。

商汤的工程能力经历过上一轮 AI 浪潮的检验,面对生成式 AI 的新业态,一方面能够对变化的技术快速反应,一方面可以直接移植其行业沉淀,精确打击痛点。

十几年的行业实践给商汤积累了深厚的行业知识和大量的真实数据,得以快速建立庞大的模型矩阵,以日日新 SenseNova 大模型为基础,推出生成式 AI 应用,以及针对 B 端企业级客户的垂直行业推出深度定制行业大模型。

具体到应用层面,商汤在企业级应用构建了 " 一基两翼 " 的布局," 两翼 " 分别为生产力工具、交互工具的应用与产品,前者直接以企业助手、金融数据先兵、政务助手等形态为客户提高工作效率;后者则是在智能陪伴、智能硬件交互、智能营销上发挥作用,比如加速大模型在机器人、智能车舱等智能硬件的应用布局,用大模型提高电商 GMV 等。

同时,过去的工程经验指导了工具层面的设置,使得商汤有足够多的工具来应答客户不同层级的需求。完备的工具箱与洞悉需求的产品设计形成良性循环,显化为新客户的增长和老客户的留存。

例如在当前竞争白热化、最考验 " 模型 + 落地 " 综合能力的智能驾驶领域,商汤绝影 2024 年新增定点车型 41 个,新增定点车辆数超过 1100 万辆;在商汤传统优势视觉 AI 方面,客户复购率按年提升了 31 个百分点,合作超过 3 年的客户中有约四成亦是生成式 AI 客户。

这里隐含了商汤模型开发不同于主流的的思路:

相比于 DeepSeek 和 OpenAI" 拿着模型的锤子找应用的钉子 ",商汤的思路是直捣黄龙,直接从最终目标应用出发,以应用驱动模型。

Deepseek 应用层面很大程度依赖其开源的生态,但开源的背面缺乏稳定的商业及技术支持与维护服务。反过来正是闭源模型的优势,能够持续做针对性的性能调优。比如商汤基于与手机厂商的深度合作,其端侧大模型在高通旗舰平台上推理速度小于 1.5 秒,比手机云端处理快 10 倍。

根据 SuperCLUE《中文大模型基准测评 2024 年度报告》,商汤 " 日日新 " 融合大模型以总分 68.3 与 DeepSeek-V3 一起并列国内榜首。

根据 SuperCLUE 和 OpenCompass 榜单,商汤日日新 5.5 性能领先 Gemini 2.0 Flash-Exp 与 GPT-4o,排名全国第一。而即将于 4 月 10 日发布的 6.0 版本据悉性能预期对标 Gemini 2.0 Pro。

OpenCompass 榜单

尾声

商汤董事会执行主席兼 CEO 徐立说,通用模型的能力比单纯的规模更重要。性能参数的堆砌之下,模型竞争更加实际的一面已经显露,其仍然遵循衡量技术的最高标尺,即是否切实改善了人们的生产生活。

Deepseek 的出现是一种信号,无论是新晋明星公司,还是历经浮沉的老玩家,都开始面临商业化的灵魂拷问。其背面是对胜利者的重新定义:谁先跑出一条成功的商业化路径,谁才是生成式 AI 的最终赢家。

在 AI 的赛道上,商汤一度是孤独的长跑者,被质疑过,却从未迷茫过。持续的研发投入、落地能力的反复打磨,修炼出了独一无二的商业模式,和应对生成式 AI 最快的反应能力,让如今的厚积薄发来得顺理成章。

生成式 AI 不仅仅是技术变革,其不同于以往的产业逻辑正在改写科技行业成功学新范式,商汤已率先落笔,为中国 AI 提供了商业落地实践的最新成功样本。

参考资料

[ 1 ] 商汤科技 2024 年财报

[ 2 ] AI 时代领先者,大装置 + 大模型推动 AGI 落地,中银证券

[ 3 ] 汤晓鸥谈 AI 的明天:深度学习的三大核心要素,以及在中国创业要像百米赛跑,黑智

[ 4 ] 小鹏吴新宙:对手如何出牌,不会打乱我们的节奏,晚点 Auto

作者:何律衡

编辑:李墨天

责任编辑:何律衡

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

商汤 ai 基础设施 深度学习 商汤科技
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论