每日经济新闻 2024-12-07
AI年末“狂欢”!OpenAI、谷歌、Meta、李飞飞发布重磅产品
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

OpenAI 为期 12 天的年终 " 技术盛宴 " 已结束第二天的直播。从当地时间 12 月 5 日发布的 " 满血版 "o1 模型和最贵 ChatGPT Pro 服务,到 6 日发布的强化微调(Reinforcement Fine-Tuning),无不证明 AI 世界又将迎来一次全新的产品升级和迭代。

在 AI 的狂欢中,其他科技公司也不甘示弱。有着 "AI 教母 " 之称的李飞飞创立的 World Labs 以及谷歌 DeepMind 团队本周先后发布重磅产品,让用户可以通过单张图片生成交互式 3D 场景,展示了 AI 在虚拟世界构建领域的巨大潜力。

Meta 和马斯克的 xAI 也来凑了个热闹。Meta 推出了今年的压轴 AI 大模型:Llama 3.3 70B,该模型据称能实现和 Meta 最大 Llama 模型—— Llama 3.1 405B 同样的性能,成本还更低。xAI 宣布 Grok 从今天起全球免费,但有使用限制。免费用户每 2 小时可以询问最多 10 个问题,每天最多可分析 3 张图片和生成 4 张图片。

随着各路玩家在 AI 领域竞赛的深入,AI 的竞争焦点也转向了智能体和通用人工智能(AGI)。

据外媒 6 日的最新报道,OpenAI 正在与微软磋商放弃 AGI 条款,以释放投资潜力。目前,最终决定尚未做出,OpenAI 董事会将决定何时实现 AGI。

清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及告诉《每日经济新闻》记者," 基于多个大模型的 AI 智能体或多个智能体的协同,可能是未来 AI 技术发挥更大作用的一个重要趋势。"

OpenAI"12 天活动 ":" 满血版 "o1 上线后,年度最大惊喜也来了

当地时间 12 月 5 日,OpenAI 为期 12 天的圣诞季特别活动开启。

在第一天的活动上,OpenAI 发布了推理大模型 o1 的 " 满血版 " 和进阶模式,以及每月收费高达 200 美元(约合人民币 1450 元)的 ChatGPT Pro 订阅服务。

" 满血版 "o1 的特征是,在回答用户提问时不是 " 脱口而出 ",而是形成一个类似人类思维方式的内部思维链条。该模型已面向 ChatGPT Plus 和团队用户开放,企业和教育用户则需要等到下周。

" 满血版 "o1 比 9 月发布的预览版更快、更强大、更准确,同时增加了多模态输入(可以上传图片)的能力。OpenAI 表示,现在的 o1 模型 " 思维已经被训练得更加简洁 "(大概快 50%),而且在回答困难现实问题时,出现重大错误的概率减少了 34%。

图片来源:X

同时发布的 ChatGPT Pro 服务也引发了外界的广泛关注,每月 200 美元的订阅费是目前 ChatGPT Plus 定价的 10 倍。不过,用户可以无限量地使用 o1 模型(Plus 用户当前有每周 50 条信息的限制),以及无限量使用 o1 mini 和高级语音模式,同时也能用上 o1 pro 模式,该模式 " 使用更多的计算来为最难的问题提供最佳答案 "。

次日,OpenAI 打出活动 " 第二弹 ",推出了强化微调(Reinforcement Fine-Tuning)。阿尔特曼表示:" 强化微调,效果出奇地好;它是我 2024 年最大的惊喜之一。"

图片来源:X 平台

强化微调与标准微调不同,利用强化学习算法,研究者可以强化产生正确答案的思路,抑制产生错误答案的思路,只需要 " 几十个例子 "(a few dozen examples)、甚至 12 个例子,模型就能以有效的新方式学习特定领域的推理,提升模型在特定领域任务中的推理能力和准确性。

据介绍,它甚至可以让简易版推理模型 o1 mini 的效果超过前一天刚发布的 " 满血版 "o1。OpenAI 预计将于 2025 年初公开发布强化微调功能。

李飞飞、谷歌 Deepmind、Meta 先后发布重磅模型

除了 OpenAI 的首批年末 " 王炸 " 外,本周还有诸多 AI 相关的重磅产品出炉。

作为 AI 领域影响力最大的女性和华人之一,斯坦福大学教授李飞飞于当地时间 12 月 2 日公布了其首个创业项目 World Labs 的成果——能用单张静态图片生成 3D 世界的 AI 产品。

在 World Labs 网站的演示里,由 AI 生成的场景均通过浏览器实时渲染而成,用户可以使用箭头键或键盘(WASD)键移动,然后单击并拖动鼠标实现交互,从而自由探索场景。World Labs 的 AI 工具配备了可操控的滑块来调节模拟景深(DoF)与模拟推拉变焦(dolly zoom),当使用者将景深效果调至越强时,背景中的物体便会越发模糊,为整个视觉体验增添了更多层次感与真实感。

图片来源:World Labs 推特截图

但 World Labs 目前只向公众发布了关于该技术的博客,外界能够体验的功能极为有限,而且并未放出任何代码和模型。

在单图生成 3D 世界领域探索的还有谷歌。北京时间 12 月 5 日凌晨,谷歌 DeepMind 在官网发布了大型基础世界模型 Genie 2,可通过单张图片和文字描述生成种类多样的游戏 3D 世界,标志着 AI 在虚拟世界生成领域的又一次突破。

图片来源:谷歌 Deepmind 官网截图

简单来说,给 Genie 2 一张图片,它可以生成供人类游玩、可实时渲染、可控和可交互的无限 3D 世界,不需要借助任何游戏引擎。例如,输入 " 森林中的可爱人形机器人 ",模型便可构建一个包含机器人角色和可探索环境的动态场景。用户可以通过键盘或鼠标操作角色在世界中进行跳跃、游泳等互动。

和 Genie 1 相比,Genie 2 拥有长期记忆,即使是角色短暂离开画面,在重新进入视野后,依旧能被精准还原出来。

清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及在接受《每日经济新闻》记者采访时表示," 从学术研究的角度来看,能否将文本意义上的世界模型与物理意义上的世界模型关联起来,把真正的物理世界进行建模,是 AI 技术能否取得突破的关键。"

World Labs 和谷歌之后,Meta 也来凑了个热闹,于当地时间 12 月 6 日推出了今年的压轴 AI 大模型:Llama 3.3 70B。Meta 生成式 AI 副总裁 Ahmad Al-Dahle 在 X 发帖表示,纯文本的 Llama 3.3 能实现和 Meta 最大 Llama 模型—— Llama 3.1 405B 同样的性能,成本还更低。

Al-Dahle 还附上了一张图表,显示包括针对大模型语言理解能力的测试 MMLU 在内,Llama 3.3 在一系列行业基准测试中表现优于谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊本周稍早发布的 Nova Pro。

专家:智能体融合将成下一个发展方向

随着大模型竞赛的深入,AI 的风又更多地吹向了智能体和通用人工智能(AGI)。

吴及告诉每经记者,目前,尽管单个大模型在某些方面表现出色,但也存在诸多不足,例如幻觉和遗忘效应等问题。他强调," 基于多个大模型的 AI 智能体或多个智能体的协同,可能是未来 AI 技术发挥更大作用的一个重要趋势。"

吴及认为,智能体融合将成为 AI 应用解决特定场景问题的一个重要技术前景或发展方向。

在《纽约时报》于当地时间 12 月 4 日举办的 DealBook 峰会上,阿尔特曼表示," 智能体是现在每个人都在谈论的话题,我认为这背后是有充分理由的。设想一下,你可以让 AI 系统完成一项相当复杂的任务,比如需要一位非常聪明的人,花费一段时间,借助各种工具来完成并产出有价值成果的任务。我预计,这样的场景将在明年成为现实。"

他同时指出,AI 行业即将迎来的发展将比预期更具冲击力。他将 AI 的影响力比作晶体管的发明,认为 AI 的推理功能未来将走向普及化和商业化。"到 2025 年,我们可能会首次见到具备 AGI 能力的系统。这类系统可以像人类一样完成复杂任务,甚至能运用多种工具来解决问题," 他说。

据外媒 12 月 6 日最新报道,OpenAI 正在与微软磋商放弃 AGI 条款,以释放投资潜力。根据目前的条款,当 OpenAI 创建 AGI 时,微软对这种技术的使用权将失效。目前,最终决定尚未做出,OpenAI 董事会将决定何时实现 AGI。

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

谷歌 清华大学 李飞飞 医学 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论