ZAKER贵阳 2024-05-14
“有眼睛、有耳朵、有嘴巴”的AI?OpenAI最新发布!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

不是 GPT-5,而是 GPT-4o。

北京时间 5 月 14 日,研发 ChatGPT 的 OpenAI 公司,推出了具备 " 听、看、说 " 能力的 GPT-4o。

OpenAI 网站称,GPT-4o 的 "o" 代表 "omni"。在英语中 "omni" 常被用作词根,用来表示 " 全部 " 或 " 所有 " 的概念。

该公司首席执行官山姆 · 奥特曼 ( Sam Altman ) 此前已预告,最新发布的产品 " 不是 GPT-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西 "。

据介绍,GPT-4o 可以实时对音频、视觉和文本进行推理,接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。

OpenAI 称,GPT-4o 可以在短至 232 毫秒的时间内对音频输入做出反应,平均反应时间为 320 毫秒,这与人类在对话中的反应时间相近。此外,它在英语和代码文本方面的性能与 GPT-4 Turbo 相当,在非英语语言文本方面也有显著提高。同时在 API(应用程序接口)方面,速度更快,成本也降低了 50%。

现场,OpenAI 展示了 GPT-4o 的多个应用场景。

例如,在一个演示中,OpenAI 前沿研究负责人马克 · 陈(Mark Chen)通过手机与 ChatGPT 进行对话。Chen 和 ChatGPT 说,他正在进行演示有些紧张,于是 ChatGPT 就 " 像朋友一样 ",对他进行了安慰。同时,ChatGPT 还能从 Chen 急促的喘气声中,听出他的紧张,然后对他说 " 慢一点。Mark,你不是吸尘器。吸气,然后数到四。"

△ GPT-4o 检测人的表情。图自 X 平台

在另一个演示中,OpenAI 后训练团队负责人巴雷特 · 佐夫(Barret Zoph)把自己的脸对着镜头,让 GPT-4o 看看自己的情绪如何。在演示的过程中,Zoph 先打开了手机的后置摄像头,拍到了木质桌面,于是 ChatGPT 说," 我看到的好像是木质表面。" 而让 ChatGPT 再试一次后,ChatGPT 对 Zoph 说," 你看起来很开心,笑容灿烂,也许还有一丝兴奋。"

同时,OpenAI 还在官网发布了一系列演示视频:GPT-4o 可以帮助学习数学、学习西班牙语、准备面试,可以通过画面判断出你正在过生日,然后给你唱生日快乐歌,可以根据要求唱不同风格的催眠曲,甚至还可以当 " 石头剪刀布 " 的裁判。而在这些视频中,GPT-4o 与演示者的对话流畅,说话语气就 " 像真人一样 "。

有网友表示,根据目前展示的视频来看,GPT-4o 在语音交互体验上提升了不少。有网友认为,GPT-4o 对算力的需求更大了。也有网友提出,既然 GPT-4o 具备了 " 视觉 ",它是否可以代替盲人看世界。

OpenAI 称,通过 GPT-4o,公司跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有的输入和输出都由同一个神经网络处理。由于 GPT-4o 是 OpenAI 第一个结合了所有这些模式的模型,因此公司在探索该模型的功能及其局限性方面仍处于起步阶段。

对此,山姆 · 奥特曼在社交媒体表示,最初的 ChatGPT 展示了语言界面的雏形,而新的 ChatGPT 则给人截然不同的感觉。它快速、智能、有趣、自然,而且 " 乐于助人 "。" 随着我们增加(可选的)个性化功能、访问信息的功能、代表你采取行动的功能等,我真的看到了一个令人兴奋的未来,我们可以用电脑做比以往更多的事情。"

来源 中国新闻网

编辑 段筠 /编审 李枫 /签发 蒲谋

相关标签

奥特曼 英语 首席执行官
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论