36氪 1小时前
货拉拉CTO张浩:AI的胜负手,不在基础模型,而在「应用场」
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2025 年的商业世界正站在新旧转换的十字路口。在商业叙事重构、科技浪潮席卷的当下,WISE2025 商业之王大会以 " 风景这边独好 " 为基调,试图在不确定中锚定中国商业的确定性的未来。我们在此记录这场思想盛宴的开篇,捕捉那些在变局中依然坚定前行的声音。

11 月 27-28 日,被誉为 " 年度科技与商业风向标 " 的 36 氪 WISE2025 商业之王大会,在北京 798 艺术区传导空间落地。

今年的 WISE 不再是一场传统意义上的行业峰会,而是一次以 " 科技爽文短剧 " 为载体的沉浸式体验。从 AI 重塑硬件边界,到具身智能叩响真实世界的大门;从出海浪潮中的品牌全球化,到传统行业装上 " 赛博义肢 " ——我们还原的不仅是趋势,更是在捕捉在无数次商业实践中磨炼出的真知。

我们将在接下来的内容中,逐帧拆解这些 " 爽剧 " 背后的真实逻辑,一起看尽 2025 年商业的 " 风景独好 "。

以下为货拉拉 CTO 张浩的演讲实录,经编辑:

大家下午好!我叫张浩,是货拉拉的 CTO。

刚才圆桌环节,有讨论到 AI 今时今刻对哪个行业会有深刻的影响,地瓜机器人的秦总回答是还看不见。

接下来我给大家分享一下 AI 在货拉拉的应用落地,我先不讲将来,只讲我们过去两年的发展路径。讲完之后,请大家再做一个判断,看今时今刻的 AI,对行业影响到底有多大?

大家在大街上应该都可以看到货拉拉的车,所以我不再赘述我们的业务场景。我们最早成立于香港,2014 年进入到中国内地,到现在已经有 12 年的历史了。除了中国之外,我们在东南亚、南美洲等一共 400 多个城市和地区也有提供服务,月均有近 2000 万的活跃用户,200 万的活跃司机。对于我们这样的业务撮合平台,最重要的事情就是撮合货主和司机之间的交易。所以运营的效率和用户的体验是货拉拉的核心能力,也是我们最需要 AI 能够拿下的两个核心方向。

每家公司的业务场景和落地阶段是不一样的。两年前,随着 ChatGPT 的横空出世,我们也开始在做这方面的研究。首先要解决的问题就是,在我们这样的行业和公司结构里,AI 在哪些领域是能够起到最大作用的呢?

我们参考高盛 2023 年 AI 研报的评估方法,通过岗位调研、任务拆解、自动化难度评级,量化 AI 提效潜力。生成式 AI 将率先在高数据密度、人力密集型领域引发生产力革命,所以我们选择了业务安全、研发、产品、运营等场景作为高优先级落地,而在一些确定性要求高、容错率低的场景,比如数据分析,我们认为还不到时机。

确定了发展方向之后,接下来就是技术落地的路径问题。

跟所有科技公司一样,2023 年最开始做的时候,我们也是想做行业内的垂类大模型。所以我们投入资源去做货运的行业大模型,花了很多的精力。

最后,我们用钱和时间买回来了两个结论:

第一点,基础大模型本身日新月异,在基础大模型里面花很多时间,还不如把我们整体行业里的数字资产、业务的 API、行业的 know-how 落地做好。

第二点是,做我们自己的 AI 应用平台是比做基础大模型更重要的事,随着基础大模型的提高,我们自己的 AI 应用,也会自动地发挥更多效率。

有这两个认知之后,我们也开始调转重心,不再纠结于基础大模型。于是我们花了大概一年多的时间打造了很完整的三个平台应用,海豚平台、悟空平台和评测标注平台。

我简短地给大家讲一下我们这三个平台。

悟空平台的目的,是希望一个非专业人士,能够在 5 分钟之内,在公司内部搭建起一个初级的企业智能体应用。

所以它有三个比较大的特点:

一是可视化的流程编排,拖拖拽拽,就能把公司各种数据资产的 API 接口都拽在一起。

二是 0 代码的智能构建,通过自然语言就可以构建一些基本的智能体。

三是能建设企业级的工具库和 MCP,就像刚才所说的,我们能够做的不是在技术层面去竞争,而是要把企业的数字化资产做到很好。

海豚平台则是面向更专业的算法开发者,为了让大家从整个数据训练到模型开发、上线维护、生命周期管理,都能做到一站式的提高效率。

我们想要通过这样一个很好的企业内部平台,为算法工程师们节省在资源、数据、模型开发、检测等等方面的时间。

当然,最重要的是构建了模型并上线之后的评测环节。对此我们推出的标注 AB 试验平台和拉拉智评,提升了我们在模型 PK、AB 试验分流等方面的完善度。

以前大家开玩笑说," 人工智能就是有多少人工就有多少智能 ",因为很多时候的精力和时间都花在各种标注和评测上面。所以把评测机构做好,才能确保我们每次上线的结果都是真正可靠可重复的。

刚才简单讲了一下我们三个平台,这也是我们觉得比较骄傲的地方。我们用时间买回来一个经验:大模型是需要行业、大厂来提供的公共基础能力,但平台应用只能靠企业自己做好。做到这一点,才能够让我们的腿跑得更快。

接下来,给大家分享一下我们一些应用场景。这些场景里面,坦率说没有哪个是颠覆性的,但我认为是比较值得去推广的,也有一些微创新。

比如 AI 的安全防控。在货运的场景里面,大家如果用到货拉拉的话,一定会发现时不时会有违规的操作,包括违规载人,危险品驾驶,以及危险的驾驶行为等等。

这些是需要我们作为平台方来及时干涉的,但是这个周期很短,整个过程可能也就几分钟。如果这几分钟检测不到,或者没进行干预的话,就可能会发生问题。

基于安全驾驶的实时监测窗口时间很短,以及准确率要求很高的特点,我们通过大模型、通过语音、图像,还有通过整个非结构化数据的去进行实时检测和干预,对整个下单流程进行分层处置。一年多下来,我们危险品运输和违规载人的风险订单量下降了 30%,同时订单提醒率也达到了 100%。

第二点不得不说的是,任何一家科技公司都会使用 AI Coding,必然需要思考的一个问题就是 AI Coding 能不能给产研提效?答案是肯定的。

从一年多以前使用 AI Coding 到今天为止,目前 90% 的个体、团队都用到了 AI Coding。同时,我们整个研发流程的渗透率,从开始的 PRD,到研发、上线、调试、后面的监控,AI Coding 已经覆盖了 60%,所以整体的渗透率是比较高的。

那么必然要说一说不高的地方。我们觉得 AI Coding 今时今刻大概只能提升 10% 的工作效率。

如果在座有工程师的话,会知道程序员并不是每天 8 小时都坐在那里写代码。我们算了一下,工程师每个工作日大概平均花 30% 的时间写代码。假设代码工作中,30% 的是由 AI 生成的,最多就 10% 的上线代码是通过 AI Coding 得到的。这个比例还不算高。

因为我们发现,AI Coding 可以在新的工程以及前端的任务里,大段大段地产生代码。但是,对一些很复杂的业务逻辑,开发者需要通过自然语言进行很多反复的交流,才能让 AI 得出正确的逻辑,同时还不一定能保证这些代码会上线。

也就是说,虽然写代码的时间少了,但你后面检查、纠错、测试的时间却增多了。所以一加一减,最后其实并没有那么高的效果。

接下来还有一些微创新。比如在产品体验方面,新客户可能并不清楚什么样的车适合装什么样的货,也有客户也不知道自己要装的货物有多大多重。所以我们自己做了一个 " 拍货选车 ",用户通过自己的摄像头给货物拍一张照片,AI 就能够通过点云分割,计算体积,在跟我们车库内的车型做自动匹配后,一般仅仅 10 秒钟就做出最合适的推荐。这个功能出来以后,大家使用的效果也是比较好的。

作为一家互联网公司,我们每天会收到成千上万的用户反馈。这些反馈的内容是林林总总的,需要打标、分类、总结,效率是非常低的。所以我们就用大语言模型做了一个用户反馈的分析器,依靠小模型来快速地识别分类,然后再通过大模型进行总结整理。

我们发现这个效果就非常好。比如我们很快就意识到,很多用户反馈我们开发票的效率太低。这种以前很可能会被忽略掉的信息,现在就能被很精准的捕捉到了。

同样的,大家肯定都经历过同事的离职和产品迭代,可能几个月几年之后,就再也不知道某个东西是谁做的,这个东西当时为什么这么做,于是存在大量的知识死角。

那这个怎么办呢?我们也用大语言模型,把我们公司所有的 PRD 文档、代码仓库、配置等等抓到一起。通过数据分析,我们得到了一个 AI 产品知识专家,这个专家就可以帮大家解决很多历史性的问题,尤其是很多知识垃圾和跨部门协作的问题。

在我们业务流程里,会有大量的、给用户发短信的需求。短信也是不便宜的,这个成本里有没有可以节省的部分呢?其实是很多的。

因为短信的内容其实是人写的,人写的就有提高的空间,所以大语言模型天然就很适合这个事情。通过智能的优化和分析,我们能够简化、优化以前表达不准确、过于冗长的短信内容,这帮我们在短信方面一年节省了大概 12% 左右的成本。

当然也有一个潜在的收益,就是风险防范。因为一条短信发出,可能就会送至几百万上千万用户。大语言模型能够对一些用词和内容的风险合规问题提前预测,使我们能够及时干预问题。

而且,今天 AGI 的技术已经让数字人无处不在了。以前纯粹文本或者是语音的助理缺乏人物形象,我们现在使用真实的 AI 数字人作为业务伙伴。这在无论是公司的内部场景里,还是外部场景里,都得到了非常好的应用。

比如我们的 AI 应用专家在通话时候,以前会出现方言听不懂、问题答非所问的现象。而且,在和外部做交流时,即使答对了,人有时候也不太信任,因为知道回答者是 AI。

那怎么办呢?所以我们就做了一个 AI+ASR+LDM+TTS 的三维串联机构。

ASR 通过我们自己独创的热词运营,还有一些跟第三方合作商供应的声学模型优化,使语义识别准确率达到 94%。

同时比较重要的是,我们发现如果 AI 业务伙伴能带有一定的方言,往往会更有真实感。所以我们做了带口音音色的调整,让 AI 的真人度能够达到 92%,也是做得不错的。

另外一点,很多时候,在线场景中,使用者往往带有情绪,比如问 AI 客服时,会带有焦急、生气的情绪。这种情况下,我们需要及时进行安抚,然后把使用者引流到不同的场景里面去,于是我们通过大语言模型做的问题改写、场景路由以及 Multi-Agent 的方式,让问题的解决率、准确率大幅提升。

说到最后,也闭环一下前面自己提的问题。我们觉得,今天的 AI 在很多以服务为主体的业务场景里,无非就是做两件事情:一是增收,二个就是降本。

每个行业不一样,像我们 O2O 行业里,不管是电商还是货运,它的本质还是服务行业,核心的价值依然是服务本身,这一点是不会被 AI 所取代的。未来如果无人驾驶 + 具身智能能够 100% 普及,这个工作也许 AI 能胜任,到今天为止还不是。

AI 在我们这样的行业,或者是类似的行业中,提效的能力还是有些边缘的,大概在 5%-10%。中间可能有的岗位会被影响得多一些,但总的来说还是一个提效、防风险和降成本的渠道。

接下来,当然我们还是要乐观。我觉得,首先,基础大模型的演进是日新月异的,它具有指数级的发展。所以很多在今天是问题的问题,可能三个月之后就不再是任何问题。

具体的落地方面,我们希望接下来还是朝多模态模型方案去进展。刚才提到了我们的 AI 业务伙伴,还是分三个阶段:ASR、LLMTTS。但这个整体在维持它的准确率和时延上,我们还是比较困难的。

所以接下来,单个模型整合、端到端三个模块,将会是我们未来的一个方向。我们现在单个的数字人做得比较好,但未来我们希望从上游到下游,全部打通,用多个数字人整体提高企业的流程效率。

当然最重要的是用户体验,刚才提得比较少,因为确实现在我们觉得能够起到的作用还相对比较小。但是未来,我们希望随着 AI 能力的提高,将可以通过端到端的大模型助手,对智能选车、智能填单等,以及内部运营、答疑等带来提效。

评论
大家都在看