雷锋网 04-02
Babel 张海龙:AI Agent 将铸就一支“钢铁雄师”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者:赖文昕

编辑:陈彩娴

在刚刚结束的英伟达 GTC 大会上,CEO 黄仁勋描绘了一幅在 AI 大模型影响下软件开发的新蓝图:未来做软件不太可能重头开始写一大堆代码。

" 很可能你会组建一支 AI 团队。" 黄仁勋称。

自大模型成为潮流起,"AI 团队 " 的蓝图便早已初见端倪, AI Agent 赛道也成为了科技巨头与创业公司多方角逐的兵家必争之地。

3 月 13 日,由华人创始团队 Cognition AI 发布的全球首个 AI 程序员 Devin,彻底点燃了业界对 AI Agent 与应用的热情,更掀起了一波由 AI 引发的失业焦虑与对于 "AI 是否会取代人类 " 的终极讨论。

在这场 " 风暴 " 之中,Babel 团队站在了极靠近中心的位置——产品 Babel 同样定位为 AI 程序员,是 Devin 的直接竞品,团队也是目前国内唯一一个聚焦 Coding Agent 的初创企业。目前,Babel 瞄准的是海外市场。

Babel 能够根据需求自主规划任务、编写和调试代码、研究新问题、进行自动化测试、迭代开发并在必要时寻求人类帮助。

例如,当被要求集成新发布的 Claude 3 这一超出了大模型固有知识范围的任务时,Babel 会自主搜索 SDK,找到文档,编写代码,然后进行测试和验证。最后,它会交付一个经过测试且可用的 Claude 3 集成模块。

Babel 旨在开发者的工作负担,让开发者有更多时间处理创造性工作和解决复杂问题。

" 我坚持认为 AI 会替代初级程序员。"Babel 的创始人兼 CEO 张海龙说。

3 月初,张海龙从深圳坐早班机去北京见投资人。前一天晚上,同事说 Babel 更新了,张海龙便在五点半起床后输入了 Babel 后台管理系统的需求,飞机一落地,项目就已完成了。

那是他们第一次完整跑通如此复杂的需求。如果同一个项目找外包团队来完成,想要拿到一个可运行的、通过测试的交付成果,大致需要一周的时间。

在决心做 Babel 前,张海龙的经历一直围绕着软件工程,并未真正进入过 AI 领域。

本科就读于复旦大学软件工程系,研究生就读于卡耐基梅隆大学(简称 "CMU")的计算机学院,张海龙毕业后便在甲骨文任职高级软件工程师。

2010 年张海龙回国创业,联合创办了开源中国社区。2014 年,他又创办了国内领先的开发者工具 SaaS CODING,随后在 2019 年被腾讯收购。

ChatGPT 的横空出世与底层模型的突破让张海龙突然意识到,未来十年所有的创业机会都和 AI 相关。带领着 CODING 时期的精锐,张海龙的第四次创业杀入了 Coding Agent 赛道。

以下是雷峰网 AI 科技评论与张海龙的对话。

Devin 发布后,投资人有信心了

AI 科技评论:你有预料到会有 Devin 这样的竞品出现吗?

张海龙:我其实没有那么惊讶,因为这事我们能想到,别人也能想到。创业从来不是因为有特别牛的想法,关键是如何实现。

Devin 出来之前我们就确定要干 Coding Agent,但并没有引起大的反响,很多人质疑是不是有点过于超前和理想主义。我们要花很大的精力去说服投资人这个方向是对的,侧面意味着中国投资人其实信心不足,对于看起来特别超前的东西,第一个问题就是海外有没有对标。

Devin 出来后大家发现很快可以看到产品,对于行业和赛道来讲都是利好的。

AI 科技评论:那你怎么看 Devin?

张海龙:其实大家对同一个问题解决的深度不同。

类比自动驾驶,L1 是 Google 这类纯搜索,需要自己去组织信息;L2 是 ChatGPT 和 Copilot 这类 Prompt,可以直接问内置很多能力的 AI,AI 以用户想要的方式提供信息;

L3 是 Synthetic Search 综合搜索,相当于把前两者融合了,Perplexity 和 Devv.ai 就属于这一类,只不过 Devv.ai 聚焦 Coding,是一个垂直的 Perplexity;L4 则是 Issue Level Coding,目前看来 Devin 属于 L4,L5 是 Project Level Coding。

从语言选择上来讲,就可以看到 Devin 和我们团队的背景差异。Devin 选择 Python,我们选择 NodeJS,Python 是科学计算,但其实对软件工程不友好,我们选择 NodeJS 是因为业界做工程、做网站它就是最牛、用户量最广、生态最好的。

虽然大家的切入点不同,但都是先把一个语言做好。现在还是用 demo、演示视频比划,真刀真枪的竞争还要看谁能更快地开放使用,拿到真实的用户反馈。

AI 科技评论:那 Babel 属于 L4 还是 L5 呢?

张海龙:Babel 是从 L5 开始探索的,现在在一些更窄的领域里面,比如只做后端、一些常规项目开发,已经初步验证可行。但要使其受众面更广,要先解决 L4 的问题,所以我们计划优先发布一个 L4 的产品,叫 Gru.ai。

Gru.ai 是从 Babel 里面拆出来的一个 Agent,我们是在做 Babel 这个 L5 项目的过程中发现 Agent Team 里面需要一个 Agent 能够解决具体的技术问题。

这个问题是抽象的、不含有业务上下文、纯粹的技术问题,比如问 Claude 3 的 API 怎么调,它就会给一段经过测试的代码。我们会先把 Gru.ai 单独拉出来去服务客户。

AI 科技评论:所以你们最近要开始推出产品了。

张海龙:我们会先开放小规模使用,现在要解决最后一些产品化问题,之前都在开发功能,没有在搞稳定性。

用户对于 AI Developer 和 Agent 的容忍度还是挺高的,只要不是完全不能用或者特别傻,都还是知道潜力在哪的,所以我们没有打算做到 100% 完美再推出,因为这不可能、也没意义,还是会尽早放出来,让大家先起码在一小部分问题上面看到它能解决问题。

AI 科技评论:为什么选择从 Agent 切入?目前最成功的应该是 Copilot 模式?

张海龙:在编程这个领域,最大的成本是人,所有的商业都围绕人展开,从传统的培训、猎头、外包,到通过提供生产工具提高人的生产效率的 VSCode, Copilot 等等工具。

开发者的日常除了造火箭,还有拧螺丝,Copilot 的逻辑就是把开发者的螺丝刀换成电钻,让开发者拧的又快又好,但 Babel 的逻辑是给开发者配个小弟,开发者只要造火箭就行了,拧螺丝的事儿都是小弟干。

所以 Copilot 是一个更好的工具,但 Babel Agent 就是那个生产力,这是两件完全不一样的事情。

Copilot 是一个已经验证成功的商业模式,但它离模型太近,离模型太近的商业模式对创业公司来说,离天堂也太近。我认为真正留给创业公司的机会就是 Agent。Agent 是模型能力 + 行业 Know How + 复杂工程,创业公司还是有机会做出领先优势的。

当然这些心得我们也是探索出来的, Stephen Wolfram 的《What Is ChatGPT Doing...and Why Dose IT Work? 》给了我很多启发。

AI 科技评论:中国 2B 的 SaaS 创业企业似乎没有成功过,所以 Babel 是要走出海战略吗?

张海龙:作为一家替代程序员的公司,自然是哪里有程序员,哪里程序员贵我们去哪里,当前最大和最贵的初级程序员市场在美国,这当然是我们的首选目标。

至于国内市场,你提到国内 2B 创业的问题,确实存在,这是由于中国的整个 2B 市场仍然是大 B 驱动的,所以最终往往走向销售型 / 定制化的不归路,不少人说过再也不想趟大 B 这个坑,我们在腾讯也干了 3 年服务大 B,也干的很痛苦。

但是从另外一方面说,中国软件的定制化程度是最高的,这是 Babel 擅长的事情,但目前国内的大模型能力无法支撑,需要至少达到 GPT-4 的水平,我们才有希望服务国内用户。

AI Developer 是工程,不是算法

AI 科技评论:Babel 是基于 GPT-4 Turbo 搭建的,为什么会选择它?当红炸子鸡 Claude3 表现会更好吗?

张海龙:我们团队做了个开源项目 LLM-RGB,用来测评当前市面上的大模型是否达到了 Babel 需要的最低标准。LLM-RGB 并不是一个全方位的测评,只关注开发领域。

从我们测评的结果来看,可以说在 Turbo 出现之前,L4 都不成立。Turbo 在上下文长度有巨大的扩展,号称 128K,实测可能在 50K 左右。Devin 目前信息不明朗,但目测也是 GPT-4,magic.dev 则是明确自己做模型。

Claude3 出来以后,我们测试过,不需要修改任何代码 /Prompts,Babel Agents 可以完美地基于 Claude3 Opus 运行,并且效果比 GPT-4 更好,但是 Claude3 Opus 太贵、太慢,暂时无法实际采用。

对于 Babel 来说,底层的模型谁好用谁,切换成本并不高。把自己做到模型无关,才能搭上最快的火车。

AI 科技评论:那 AI Developer 不需要自己的大模型吗?

张海龙:这涉及了公司的路径选择,我认为在 AI Developer 赛道自己做模型是错误的,意味着市面上所有的模型公司都是竞品,而我们更愿意站在巨人的肩上做事情。

有人会青睐小模型或垂直模型,但我持相反意见,因为只有大模型能带来智力,而智力是不分写代码写得好还是打官司打得好,是底层的东西。

AI 科技评论:你之前的经历并没有和 AI 强相关,做 AI Developer 有遇到什么技术难题吗?

张海龙:其实技术上的困难没有那么多,做 AI Developer 不是个科学或算法问题,是个工程问题,科学部分 GPT 已经帮忙做完了,工程问题是我们团队擅长的。

一个模型就像一个刚毕业的大学生,聪明,有知识,但没法去企业里直接创造价值,我们要思考的是如何把一个聪明的模型变成一个聪明的工程师。

这个过程中最难的不是碰到了技术问题,而是不知道要解什么技术问题,因为这件事情没有人做过。摸着石头过河,毕竟也没有可以参考的对象、工程方法论。

而且可用的基础设施也有限,比如当前市面上的 Multi Agent 框架一旦深入细节就会发现问题,还是得自己做。

AI 科技评论:你提到工程是 Babel 团队擅长的,你觉得这是你们的最大优势吗?

张海龙:工程能力可以帮助我们积累一些早期优势,但 AI 公司最大的优势来源于 " 数字化的经验积累 "。互联网上所有公开信息都是结果,比如 stark overflow 上的回答,Github 上的代码,都是结果。很少有人把思考的过程和真正的经验数字化,这也是员工的价值所在。

为什么老员工宝贵?就是因为很多知识经验,他的命题逻辑、解题思路和解题过程在大脑里不可传递。很多厉害的程序员在工作的时候都恨不得自己有分身术,给他多少人手都不解决问题,就是源于这种经验的不可传递性。

但 Agent 的经验可以顺便传,可以复制 100 个 Agent,同时服务 100 个客户,并行做 100 个项目。整合经验接着做第 101 个的时候,就是质的飞跃了。

Developer 赛道本质是个工程问题,不是算法问题,毕竟不是搞大模型。所以 Devin 的团队虽然光环很大,但在这个赛道的实际表现有待观察。人才的核心是团队的 chemistry,现在 AI 赛道上特别喜欢顶着各种头衔干活。虽说绝对的智商和学术上的权威很重要,但是也没有那么重要,不然 GPT 就是 Google 做出来的了。我们和 CodeGen,Pythagora 的团队基本都是干了很多年工程的人,从团队优势上,我更相信我们这个成分的团队更有优势。

同时,过去创业踩坑过程积累的经验也让我经常会反思,现在可以更好站在一个第三者视角审视我们项目的 vision、团队和状态,在一个新型的领域创业,面对技术和商业的双重不确定性,这种观察者的视角也会让我们少走些弯路。

AI 科技评论:那目前在 AI Developer 赛道创业面临着什么挑战呢?

张海龙:第一,行业竞争非常激烈,因为所有人都要往 L5 走,少说有 20 个竞争对手是拿过风险投资的,所以融资能力也很重要。

但客观来说,中国现在的融资环境确实差得很远,对于中国团队的竞争是极其不利的。但有利的地方在于中国团队的工程经验高于外国团队,我们各种非标项目、定制化开发、私有化、端到端全都干过。

第二是大模型太贵,所以依赖底层模型的进化,GPT-4 至少得再降价 10 倍,大规模开放才具有真正的可能性。不解决成本问题的话整个赛道都会完蛋。

Coding Agent 创业对所有人都挺难的,但会有一种扮演上帝的感觉,很有成就感。我们最初做一页纸需求还做得磕磕巴巴,但现在已经能处理大概四五页纸的需求了,产品的每一次演进都能带来正反馈,这种感觉真的太爽了。

数字员工崛起,人类失业?

AI 科技评论:你提到近几个月 Babel 的很多想象逐渐变成了现实,那对于未来的 Babel,你的想象或者规划是什么?

张海龙:Babel 到最后比较好的状态是成为一个卖 Agent 人头的外包公司。

比如我们以一个月 1, 000 美金卖出 Agent 后,客户负责它耗费的电力、算力各种成本,相当于从外包招了个人进来,让小弟帮干活。Babel 会持续升级这个小弟,让小弟更聪明、干活干得更好、配套上各种工具环境,就是相当于数字员工。

AI 科技评论:那你也认为在未来 AI 程序员会取代人类程序员吧?

张海龙:其实我现在已经看到了 AI Developer 取代人类这件事了。

我们团队只有 10 个人,没人开发管理后台这种非核心业务,所以我变成了要去负责后台系统的人。当时我面对三种选择,第一是自己写代码、从头到尾开发系统,但这太累了;第二是找外包;第三也就是我选择的,用我们自己的 Agent 写。

之前没有 Agent 的时候,我们会找外包去处理这个问题,所以我相信对于初级程序员的替代最迟一年就会发生,我们的产品近期会发布,随着后续迭代它会更成熟,在一年以后,相信可以就替代拧螺丝的初级程序员,但高级程序员是不会被替代的。

高级程序员往往拥有专业领域的非共识知识,这些知识无法通过公开领域的信息获取。

AI 科技评论:但是高级程序员也是从初级程序员成长而来的。

张海龙:以后程序员的培养路径也会跟现在不一样,就像高科技种地一样,不需要真的从种地开始学,以后所有低端培训都可能会利空了。

AI 科技评论:除了 Coding 之外,你觉得还有哪些 Agent 会成为趋势?

张海龙:其实从最新的融资情况来看,现在在法律、财务、市场等方向上都有团队在做 Agent 了,程序员应该是数字员工这个大赛道中难度最高的一个。

我个人期待看到的是音乐和影视领域的 Agent。音乐 Agent 能全自动写完整的歌曲,包括作词、作曲,把词和曲对上并且演绎出来。影视   agent 能全自动生成一个 10 分钟的带完整情节的短剧,不是一个个片段,而包含了镜头切换、故事内容和情节。

现在看大模型,行内人士遥遥领先、各种牵头,但对于周边老百姓的生活影响很小,只有当数字员工普及,人人都是 CEO,那才是真的社会性的变革。

雷峰网本文作者 anna042023 将持续关注 AI 大模型领域的人事、企业、商业应用以及行业发展趋势,欢迎添加交流,互通有无。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 程序员 ceo 黄仁勋 腾讯
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论