鲸选AI 03-12
Anthropic CEO最新预言:90%程序员的饭碗年内不保
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

最新消息,Anthropic 首席执行官 Dario Amodei 更在近日直言:未来 3 到 6 个月,AI 将编写 90% 的代码,而在 12 个月内,几乎所有的代码都可能由 AI 编写

之所以敢于如此预言,是随着最近一系列重磅 AI 产品的发布,程序员这个群体的危机感越来越强。AI 进化,导致代码中很多工作都可以被代替了。

尤其编码能力再次打破天花板的 Claude3.7,以及 Windsurf ’ s Wave 4。此前大火的 OpenAI o3 大模型,以及已经成为独立开发者口中经典的 Cursor,都是标杆型产品,以至于有人惊呼:程序员饭碗要不保了。

重点提及下,最新的 Agentic Coding Evalution 榜单中,Sonnet 3.7 以 67% 的得分率,在初级人员开发评估达成度中位列所有模型第一。第二三名中 GPT-4.5 和 Sonnet 3.5 也相差相差无几,都超过了 60%。显示了这几款模型的编程能力强大。

实际上,两大模型在编程方面略有侧重, GPT-4.5 在涉及架构和跨系统交互的任务上峰值更高,而 Claude 3.7 Sonnet 在原始编码和代码编辑上的峰值更高。

可能单纯说分数,并不好直观理解大模型的能力,换个方式用实际案例来讲述。

此前,o3 模型在 Elo 得分(2727 分)所对应的排名高居 175 名。这是个人类编程测试比赛,类似高考前大家都不知道考试题内容,所以不存在大模型已经刷过题的可能。

这个竞赛一共有全球 168076 名程序员参赛,175 名是前 0.1% 选手(1-175/168076=99.9%),换句话说:o3 已经在编程竞技中击败了世界上 99.9% 的程序员,Claude 3.7 sonnet 应该还会更好一点。

不只在模型层 AI Coding 实现了巨大的跨越,在产品开发层面也有了重大的升级。

字节跳动的 Trae 海外版就接入了 Claude-3.7-Sonnet、GPT-4o 等国际大模型,也具备 IDE 的能力。小白也能编程的目的接近实现,程序员的门槛被进一步降低。

最最重要的是,Trae 海外版完全免费,用户可以无成本地使用其所有功能。而 Cursor 需要付费订阅,价格为每月 20 美元。

国外就有网友利用 Trae 和里面内置的 Claude3.7,只需一个设计草图和一个超级简单的提示,它就会自动生成 3D 动画地球的代码。 Prompt:

构建一个 3D 地球,让用户可以改变视点、使用卫星图像地图并突出显示南极洲。

这个 3D 地球包含以下功能:使用 Three.js 构建了一个交互式 3D 地球模型。

也有人靠此赚到了真金白银的收益。海外一位叫 Pieter Levels 的大神只用了 3 个小时,完全依靠 AI 开发了一款游戏。上线 13 天已经赚了 67,000 美元,折合人民币接近 50 万元,马斯克都为此点赞!

是不是有这么神奇,鲸哥自己也做了个 Case 。 鉴于我是完全的小白,我打算做一个不是特别难,但是苹果和国内软件企业都没做好的产品— "To do 日历 "(个人认为我做的最好,可能是我用的日历产品比较少)。

Trae 编写程序页面

我们使用字节刚刚推出的 AI Coding 产品 Trae,具体是用 Trae 的 Builder 模式,这个模式支持一键从 0 到 1 生成应用;Chat 模式适合不断修改的模式。我们输入了如下 Prompt:

生成一个 To do list 小程序,要求结合日历。左侧是日历,日历上每天可以添加简单事项,右侧是这天的详细 To do list。每件事后面可以打对勾或者叉,表示每件事已经完成或者未完成,未完成事项自动进下一天 list,并且可以编辑。

几分钟就生成了应用代码,而在预览的过程中,Trae 最牛的地方还是帮你缺啥补啥,开发环境一步步帮你部署到电脑上,运行监测一步步落实。

最终呈现的效果大家可以看看 , 我个人想要的几个逻辑都复现了。

鲸哥用自然语言编写出的程序

第一 是右侧 list 完成的打对勾,事项就会被画横线,显示已经完成;未完成的事项打叉,会自动加入到第二天的 To do list。

第二是每件事可以任务分类,写的时候选择是工作还是生活学习类的标签;然后单独点击工作等某个标签,会显示这个月内要做的工作 list。

第三是长短期任务结合,都可以添加和显示,尤其长期任务是每天显示进度,起到很好的督促作用。

而实现以上完整逻辑,鲸哥也是和 Trae 连续对话一下午,期间 Trae 调用 Claude 3.7 模型,动不动就要排队 200 多名,以及复杂任务还经常报错,鲸哥最开始想做 AI 版陌陌,太复杂最终没能完成。

尽管仍有很多不完美的地方,但是只花了一下午 就做出了成品,无论效率还是效果还是挺惊人的。当然这款程序可能无法推向市场,因为代码水平达不到商用的水平。

但我们要知道,大模型代码的水平正快速提高, 从几方面正在接近人类:

Sonnet 3.5 可以输出 200 行,而 Sonnet 3.7 已经可以输出 1000-1500 行代码,是第一个可靠代码长度上千行的模型

以后大量繁杂枯燥的编程就不需要一行行打了,大量初级程序员的位置被取代。刷 Leetcode 也不再有意义,朋友以前写代码经常借助 sider,每年一千多元的费用,现在也不用了,直接借助大模型。

还有 Action scaling 的关键能力,能够连续做 function call 和 tool use ,并持续根据环境的反馈迭代,直到把一个开放式问题解决,这在未来的进化能力不可小觑。

当然有朋友说,AI 能和客户对需求吗?AI 会和 PM 吵架吗?AI 能背锅吗?

Claude3.7 发布后,他惊呼自己工作都要不保了,他所在的外包公司近一年中,也因为 AI 等复杂因素裁员了一些人;

不可否认的是,现在还不行,但 Devin 等产品正在呈现一定的 AI Agent 能力,理解并执行的能力快速提高,人人都是产品经理的时代就会到来。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 程序员 编程 字节跳动 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论