OpenAI 为期 12 天的年终 " 技术盛宴 " 已结束第二天的直播。从当地时间 12 月 5 日发布的 " 满血版 "o1 模型和最贵 ChatGPT Pro 服务,到 6 日发布的强化微调(Reinforcement Fine-Tuning),无不证明 AI 世界又将迎来一次全新的产品升级和迭代。
在 AI 的狂欢中,其他科技公司也不甘示弱。有着 "AI 教母 " 之称的李飞飞创立的 World Labs 以及谷歌 DeepMind 团队本周先后发布重磅产品,让用户可以通过单张图片生成交互式 3D 场景,展示了 AI 在虚拟世界构建领域的巨大潜力。
Meta 和马斯克的 xAI 也来凑了个热闹。Meta 推出了今年的压轴 AI 大模型:Llama 3.3 70B,该模型据称能实现和 Meta 最大 Llama 模型—— Llama 3.1 405B 同样的性能,成本还更低。xAI 宣布 Grok 从今天起全球免费,但有使用限制。免费用户每 2 小时可以询问最多 10 个问题,每天最多可分析 3 张图片和生成 4 张图片。
随着各路玩家在 AI 领域竞赛的深入,AI 的竞争焦点也转向了智能体和通用人工智能(AGI)。
据外媒 6 日的最新报道,OpenAI 正在与微软磋商放弃 AGI 条款,以释放投资潜力。目前,最终决定尚未做出,OpenAI 董事会将决定何时实现 AGI。
清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及告诉《每日经济新闻》记者," 基于多个大模型的 AI 智能体或多个智能体的协同,可能是未来 AI 技术发挥更大作用的一个重要趋势。"
OpenAI"12 天活动 ":" 满血版 "o1 上线后,年度最大惊喜也来了
当地时间 12 月 5 日,OpenAI 为期 12 天的圣诞季特别活动开启。
在第一天的活动上,OpenAI 发布了推理大模型 o1 的 " 满血版 " 和进阶模式,以及每月收费高达 200 美元(约合人民币 1450 元)的 ChatGPT Pro 订阅服务。
" 满血版 "o1 的特征是,在回答用户提问时不是 " 脱口而出 ",而是形成一个类似人类思维方式的内部思维链条。该模型已面向 ChatGPT Plus 和团队用户开放,企业和教育用户则需要等到下周。
" 满血版 "o1 比 9 月发布的预览版更快、更强大、更准确,同时增加了多模态输入(可以上传图片)的能力。OpenAI 表示,现在的 o1 模型 " 思维已经被训练得更加简洁 "(大概快 50%),而且在回答困难现实问题时,出现重大错误的概率减少了 34%。
图片来源:X
同时发布的 ChatGPT Pro 服务也引发了外界的广泛关注,每月 200 美元的订阅费是目前 ChatGPT Plus 定价的 10 倍。不过,用户可以无限量地使用 o1 模型(Plus 用户当前有每周 50 条信息的限制),以及无限量使用 o1 mini 和高级语音模式,同时也能用上 o1 pro 模式,该模式 " 使用更多的计算来为最难的问题提供最佳答案 "。
次日,OpenAI 打出活动 " 第二弹 ",推出了强化微调(Reinforcement Fine-Tuning)。阿尔特曼表示:" 强化微调,效果出奇地好;它是我 2024 年最大的惊喜之一。"
图片来源:X 平台
强化微调与标准微调不同,利用强化学习算法,研究者可以强化产生正确答案的思路,抑制产生错误答案的思路,只需要 " 几十个例子 "(a few dozen examples)、甚至 12 个例子,模型就能以有效的新方式学习特定领域的推理,提升模型在特定领域任务中的推理能力和准确性。
据介绍,它甚至可以让简易版推理模型 o1 mini 的效果超过前一天刚发布的 " 满血版 "o1。OpenAI 预计将于 2025 年初公开发布强化微调功能。
李飞飞、谷歌 Deepmind、Meta 先后发布重磅模型
除了 OpenAI 的首批年末 " 王炸 " 外,本周还有诸多 AI 相关的重磅产品出炉。
作为 AI 领域影响力最大的女性和华人之一,斯坦福大学教授李飞飞于当地时间 12 月 2 日公布了其首个创业项目 World Labs 的成果——能用单张静态图片生成 3D 世界的 AI 产品。
在 World Labs 网站的演示里,由 AI 生成的场景均通过浏览器实时渲染而成,用户可以使用箭头键或键盘(WASD)键移动,然后单击并拖动鼠标实现交互,从而自由探索场景。World Labs 的 AI 工具配备了可操控的滑块来调节模拟景深(DoF)与模拟推拉变焦(dolly zoom),当使用者将景深效果调至越强时,背景中的物体便会越发模糊,为整个视觉体验增添了更多层次感与真实感。
图片来源:World Labs 推特截图
但 World Labs 目前只向公众发布了关于该技术的博客,外界能够体验的功能极为有限,而且并未放出任何代码和模型。
在单图生成 3D 世界领域探索的还有谷歌。北京时间 12 月 5 日凌晨,谷歌 DeepMind 在官网发布了大型基础世界模型 Genie 2,可通过单张图片和文字描述生成种类多样的游戏 3D 世界,标志着 AI 在虚拟世界生成领域的又一次突破。
图片来源:谷歌 Deepmind 官网截图
简单来说,给 Genie 2 一张图片,它可以生成供人类游玩、可实时渲染、可控和可交互的无限 3D 世界,不需要借助任何游戏引擎。例如,输入 " 森林中的可爱人形机器人 ",模型便可构建一个包含机器人角色和可探索环境的动态场景。用户可以通过键盘或鼠标操作角色在世界中进行跳跃、游泳等互动。
和 Genie 1 相比,Genie 2 拥有长期记忆,即使是角色短暂离开画面,在重新进入视野后,依旧能被精准还原出来。
清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及在接受《每日经济新闻》记者采访时表示," 从学术研究的角度来看,能否将文本意义上的世界模型与物理意义上的世界模型关联起来,把真正的物理世界进行建模,是 AI 技术能否取得突破的关键。"
World Labs 和谷歌之后,Meta 也来凑了个热闹,于当地时间 12 月 6 日推出了今年的压轴 AI 大模型:Llama 3.3 70B。Meta 生成式 AI 副总裁 Ahmad Al-Dahle 在 X 发帖表示,纯文本的 Llama 3.3 能实现和 Meta 最大 Llama 模型—— Llama 3.1 405B 同样的性能,成本还更低。
Al-Dahle 还附上了一张图表,显示包括针对大模型语言理解能力的测试 MMLU 在内,Llama 3.3 在一系列行业基准测试中表现优于谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊本周稍早发布的 Nova Pro。
专家:智能体融合将成下一个发展方向
随着大模型竞赛的深入,AI 的风又更多地吹向了智能体和通用人工智能(AGI)。
吴及告诉每经记者,目前,尽管单个大模型在某些方面表现出色,但也存在诸多不足,例如幻觉和遗忘效应等问题。他强调," 基于多个大模型的 AI 智能体或多个智能体的协同,可能是未来 AI 技术发挥更大作用的一个重要趋势。"
吴及认为,智能体融合将成为 AI 应用解决特定场景问题的一个重要技术前景或发展方向。
在《纽约时报》于当地时间 12 月 4 日举办的 DealBook 峰会上,阿尔特曼表示," 智能体是现在每个人都在谈论的话题,我认为这背后是有充分理由的。设想一下,你可以让 AI 系统完成一项相当复杂的任务,比如需要一位非常聪明的人,花费一段时间,借助各种工具来完成并产出有价值成果的任务。我预计,这样的场景将在明年成为现实。"
他同时指出,AI 行业即将迎来的发展将比预期更具冲击力。他将 AI 的影响力比作晶体管的发明,认为 AI 的推理功能未来将走向普及化和商业化。"到 2025 年,我们可能会首次见到具备 AGI 能力的系统。这类系统可以像人类一样完成复杂任务,甚至能运用多种工具来解决问题," 他说。
据外媒 12 月 6 日最新报道,OpenAI 正在与微软磋商放弃 AGI 条款,以释放投资潜力。根据目前的条款,当 OpenAI 创建 AGI 时,微软对这种技术的使用权将失效。目前,最终决定尚未做出,OpenAI 董事会将决定何时实现 AGI。
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦