量子位 17小时前
不好!1930年的AI都来抢程序员饭碗了
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

劳动节,马上 100 岁的 vintage 大模型也得劳动。

是的,有人给只有 1930 年知识的大模型,微调成软件工程师了……

过程比想象中轻松,仅用 250 个训练样本,强悍的老头便解决了自己人生中的第一个编程问题——

给 xarray 库打了个补丁。

一个连电视机都没见过的 AI,现在也开始跟 Claude 们「学坏」,要跟程序员抢饭碗了。(bushi)

中古硅基软件工程师

先补充下背景,1930 是谁?

这是最近爆火的「老头 AI」,全名叫 talkie-1930-13b。

操盘手是 AI 研究员 Nick Levine、多伦多大学副教授 David Duvenaud,以及大家熟悉的那位——真 · GPT 系列之父 Alec Radford。

而他们对老头最有趣的设计,就是其训练数据有条铁律:1931 年 1 月 1 日之后的任何一个字,全部不准进!

是的,它不知道电视机,不知道互联网,更不知道二战怎么收场……

老头的世界,永远停在了 1930 年 12 月 31 日的午夜。

但让全网「瘫软」的点在于,就这么个老古董,当扔给它一道 Python 编程题时,这个跨越近百年的「过去之灵」,竟然写出了人生第一行 Python 代码。

离离原上谱。

如今,老头再次发力。

有人对 Alec Radford 的这个 1930 vintage LLM 做了微调,让它去解 SWE-bench 上的真实软件工程问题。

谁曾想,真让老头干成了。

250 个训练样本之后,它落地了第一个 fix ——一个针对 xarray 库的小补丁。

百岁老人,硬核上岗。

对了,团队放出了老头在落地这个 xarray 库补丁的全过程。

说实话,如果以看前沿 LLM 的标准,这个 demo 看着真有点恼火。

一个简单的问题,老头足足花了 49 轮才搞定,又长又慢。

其中有些轮次实在看不下去了,真的太笨了,着急死了,但你又不好意思对老头发脾气。

但,这在某些时刻,反而让人更兴奋。跟看爽文一样。

我举个最「直接、不绕弯」的例子。(bushi)

老头一开始其实搞砸了。

在第 12 轮对话的时候,它尝试 apply patch 失败了。

代码可以报错,但,老兵不死。

老头没有放弃,它仍在继续尝试,直到终于意识到自己错在哪……

然后,在第 44 轮,它给修好了!!

我知道,fix 本身很简单,别说 AI SOTA 了,代码水平跟小白比估计都够呛。

但真正重要的,是老头在整个解题过程中的思考。

这个过程展示出的那种推理能力,跟我们在现代模型上看到的如出一辙。

一个 1930 年的模型,也会试错,会反思,会自我修正。

demo 之外,benchmark 的表现同样亮眼。

当微调时的训练数据规模扩展到大约 75K 条 trajectory,也就是 10 亿 token 的时候,模型在 SWE-bench-Verified 上达到了 4.5% 的 pass@1。

要知道,它原来在 HumanEval 上才 4% 的 pass@100。这进步幅度相当可观。

虽然绝对值还很低,但对一个 1930 年知识模型来说,已经很离谱了。

更有意思的是另一个对照实验。

事实上,团队还同时给老头训练了一个兄弟模型,叫 talkie-web,这个模型是在互联网数据上预训练的。

同样的微调配方,talkie-web 在 SWE-bench-Verified 上的成绩是 5.5% 的。

没错,即便团队偏心,给孪生兄弟加上互联网数据,也就比老头高了 1 个百分点。

以上结果,欢迎复现。

这不是什么穿越爽文,团队已经在 GitHub 上开源了项目,链接放在文章结尾,感兴趣的朋友可以去跑跑看。

团队自己也很兴奋,在 README 里喊话:

如果你手头有更多算力,我们很想看到 1930 模型和互联网模型在后训练持续扩展时的完整 scaling 曲线对比。

想看想看,这可比单纯秀肌肉的 benchmark 有意思多了。

什么是智能?

团队并没有剖析背后的原因,但我看了不少网友在帖子下面的评论,觉得这是一个值得讨论的话题。

我们一直以为,AI 需要吃掉整个互联网才能变聪明。

但如果一个只读过 1930 年以前书的模型,经过一点点后训练就能写代码修 bug ……

那我们对「什么是智能」的理解,是不是也得重新想想?

4.5% 的 pass@1,放在今天的 SOTA 面前当然不够看。但它证明的那件事,比任何 benchmark 分数都重要。

一个 1930 年代的人,如果拥有几乎相同的教育体系,完全可以理解现代软件工程。

一百年前的数据量,加上正确的后训练方法,就足以产生现代意义上的推理。

智能的瓶颈,或许从来不在于预训练数据的多少。

你不需要一个训练过所有知识的模型,它只需要具备基本的语言理解能力,这就够了。

或许,当我们在 Scaling 路上一路狂奔的间隙,也可以稍微停一停,抬起头来跟身边人侃侃大山、扯扯淡——

诶,你说……

智能的本质,到底是什么?

GitHub:

https://github.com/RicardoDominguez/talkie-coder

参考链接:

[ 1 ] https://x.com/rdolmedo_/status/2050665193374732430?s=20

[ 2 ] https://github.com/RicardoDominguez/talkie-coder

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

 AI 正在从少数人的工具,变成所有人的日常。

今年5 月 20 日,我们将在北京金茂万丽酒店举办一年一度的中国 AIGC 产业峰会。

首波嘉宾阵容已公布昆仑万维方汉智谱吴玮杰EverMind 邓亚峰风行在线易正朝百度秒哒朱广翔Fusion Fund 张璐香港大学黄超MarsWave 冯雷都来了,了解详情

邀请你和我们一起,不再只是讨论 AI 的未来,而是现在就用起来。 

一键关注 点亮星标

科技前沿进展每日见

评论
大家都在看