VR陀螺 03-06
Sora冷静期后,我们更关心AI+XR的组合能够带来什么
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 /VR 陀螺

不可否认的是,OpenAI 总能创造爆款。

赶在中国农历春节假期结束前,OpenAI 又一次在社交媒体上投下了一颗重磅炸弹。新的人工智能系统 Sora 的出现宣告着现代内容的创建方式彻底改变。

图源:Sora

根据 OpenAI 的说法,Sora 不仅可以文本提示生成时长达一分钟的视频,还能通过静止图像生成视频,或者通过扩展现有视频或通过生成缺失的帧来填补视频中的空白。

虽然该模型目前仅在申请内测阶段,但从国内外社交媒体的反应以及官方提供的实例来看,Sora 生成的视频无论是在质量还是可靠性上都超越了该领域的 " 前辈们 ",展现出成为下一个 ChatGPT 的强劲势头。

这固然有部分炒作的成分在,但不可否认的是,Sora 的爆火现象的背后是人们对于信息革命之后第四次重大技术变革的全民狂欢," 多模态真人工智能 " 进化的又一个里程碑出现在了 2024 开年。

  现实与虚拟的边界已被成功混淆  

在 Sora 及其技术报告推出后,OpenAI 几段长达 60 秒,高清晰度且画面可控、能多角度切换的高水平效果视频就在国内外社交媒体上疯传。

在 Sora 的魔法下,人们第一次知道 AI 生成的视频原来还可以这么逼真。

即使融入纪录片也毫无违和感(图源:Sora)

要知道,2023 年 AI 的视频生成效果还是这样的:

真实但显然视频对象灵活性欠佳(图源:Pika)

仅仅过去几个月时间,文本生成视频技术实现了从 5 秒到 60 秒,从卡通动画到纪录片画质的飞跃,这放谁身上不汗流浃背。

逼真的视觉效果以及 " 未来已来 " 的社交媒体病毒式营销使得 Sora 成为 2024 年初 AI 领域最为破圈的存在,风头甚至盖过了几乎同一时间发布的 Gemini 1.5,一时间无论是娱乐版块还是科技板块都充斥着 Sora 的身影。

一年前,一段由 AI 生成威尔・史密斯吃面的视频在网络上大火,仅在 Twitter 上该视频的播放量就突破了 800 万。

一年后,威尔史密斯于 Sora 刷屏后在自己的 INS 上上传了一则视频,并附文 " 越来越失控了 "。

可以看到,视频画面分为上下两段:上半段显示是一年以前的 AI 视频,下半段则显示现在的 AI 视频。

图源:X

虽然大家很快就发现这只是威尔・史密斯在玩梗,视频下半段并不是 AI 生成,而是他自己录的,但还是有不少网友大呼受骗:" 最令人毛骨悚然的是,你无法判断这是表演还是人工智能生成的。"

这也从侧面证明 Sora 的出现使得人们开始相信视频生成 AI 能够以假乱真,AI 代替视频剪辑的时刻似乎已经到来。在 Sora 发布的另一则演示视频中,可以看到,人物在进食过程中的咬合动作,汉堡上的缺口以及牙印都与现实规律无异,完全不是一年前史密斯吃面的恐怖效果可以比拟的。

汉堡有瑕疵,但牙印很还原(图源:Sora)

不过,视频生成效果再好,也总有人能在其中找到瑕疵。许多影视行业人士在分析 Sora 生成的演示视频之后表示,虽然 Sora 在视频画质、细节、光影和色彩等方面表现出色,但目前还不能直接用于影视作品,因为其在涉及镜头运动角度和更精细内容调控方面仍存在不足。

一个明显的案例出自于这段视频,视频中人物在跑步机上逆向跑步,Sora 显然还不明白运动的规律。

还有一个佐证是四条腿的蚂蚁,Sora 知道什么图像代表着蚂蚁这一单词,但对完整蚂蚁形象的理解还存在不足。

然而,即使 Sora 还不够完美,但其生成效果也已经足够震撼,业内人士普遍认为 Sora 完全可以用于诸如概念设计之类的影视前期开发。

再加上 OpenAI 方面对于积极改进 Sora 不成熟之处的承诺以及 AI 语音克隆初创公司 ElevenLabs 等对 Sora 视频 " 声音缺失 " 的一系列问题的解决方案的推出,在突破现实与虚拟边界的小试牛刀后,Sora 未来将为影视行业带来更多创新和突破。

  爆火的背后  

  Sora 踩中了什么流量密码?

Sora 并非第一个问世的文本生成视频 AI 模型,但为什么只有 Sora 成为了现象级的全球爆款?

根本来看,一是视频质量的跨级别飞跃,二是 " 意想不到的核心技术 "。

其中,Sora 生成视频的质量大家有目共睹,光是 60s 的连贯视频生成时长就不是 Runway 和 Pika 能够比拟的。而视频质量的断层式领先的原因则被业内人士认为是在核心技术上的力大砖飞。

博主 "Daily News" 展示的三种模型生成效果(图源:X)

国内深度学习专家李沐认为,Sora 类似于视频生成界 GPT2 向 GPT3 升级的时刻,模型跟前作 DiT 比可能变化不大,但使用了几百倍的算力,属于是大力出奇迹。该模型基于的 ViT、DALL · E、diffusionmethods、VAE 也并非新技术,这种 demo 效果拉满的应用,相信学术界和开源界会很快跟进。

与 Runway 和 Pika 不同,Sora 在扩散模型领域使用了此前在 GPT 上就十分好用的 Transformer 方案,将文本模型的强前后文理解能力用在扩散视频的 " 帧生成 " 上。

简单来说,Sora 并不是直接将文本转化成视频中的每个帧,而是通过处理每一个 Space timepatches(时空补丁)来补全整个视频。

这类似于 3D 生成领域的分块式生成,Sora 分析文本后将整个视频内容代表的时空中的关键元素切割为包括物体、动作、背景等在内的对应图像补丁,并通过内置的知识图谱,以物理世界的数据信息将这些补丁重新整合成充满噪点的画面。最后通过扩散模型将噪点图像细化,成为逐帧生成的视频。

在时空信息的约束下,Sora 生成的视频内容显然更加忠于指令,相当于 Sora 提前给视频打好了脚本,视频中生成的内容就像演员和布景一般严格按照脚本运行,这同样也是此前 Runway 和 Pika 等无法做到的。

而这些成果都离不开 Sora 背后的核心团队。OpenAI 研究人员 Jason Wei 在自曝一份比 996 更加紧凑的每日工作时间安排清单后,收获了一众惊叹,他表示,"OpenAl is nothing without its people.(没有员工的贡献,OpenAI 什么都不是。)"

根据此前的社交媒体消息,Sora 团队成员构成十分年轻化,团队中甚至有 00 后的科研成员。这些参与者中,已知的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。

与算力一道,人才被视作 AI 发展的基石之一,此前被误传为 Sora 作者之一的 CV 大神谢赛宁同样认为人才是 Sora 这样复杂的系统诞生的三大核心因素,其余两个分别是数据和算力。

靠着足够惊人的演示视频 + 全球第三大独角兽背后的年轻团队,Sora 赚足了流量,还未发布就已经成为了拳打 Runway,脚踢 pika 的文字生成视频领域的唯一神,甚至还在中国国内创造了新的 "AI 变现渠道 "。

在 Sora 还没有公测之时,以李一舟为代表的 "AI 讲师 " 们就已经大张旗鼓卖起了网课,势要让 " 家人们 " 都赶上利用 Sora 赚大钱的第一波风口。

图源:网络

只是李一舟早已被扒出并不是 AI 方面的专家,其卖课内容也基本都是最基础的常识,更多的是 " 强调 AI 的强大和重要性 " 以及 " 用 Sora 关键词引流变现、卖账号、卖生成视频、卖使用教程 " 等互联网讲师们的老一套变现操作。与此前的 " 教你如何用 ChatGPT" 一样,属于是吃 OpenAI 的次生流量割韭菜。

普通人对于 "AI 取代说 " 的恐惧无可厚非,但 AI 技术发展太快,今天刚刚学会用 Runway,明天就又冒出了更加强大的 Sora,与其将焦点放在如何追赶最新的 AI 技术上,不如更多地关注 AI 的出现对生产模式的改变,毕竟未来 AI 都将朝着傻瓜式好用的方向迈进,发掘 AI 能在何种领域如何更好地增值内容生产才是未来打工人们更加应该关心的。

AI" 一键生成广告图图 " 工具 Amazon Ad(图源:亚马逊)

这也是 Sora 引起热议的另一个原因,借助这项文本生成视频技术,人们看到了 AGI 改变内容创作流程的实例。

  AI+XR 打造智能硬件的 " 明日设备 "  

在这之前,AIGC 已经突破了文本生成、图像生成的关卡,如今,公认的创意媒介的最后一道难关——视频的一键生成也被打通,有了 ChatGPT 的成功案例在前,市场普遍认为 Sora 同样也能成为下一个改变工作流程的 AI 模型,而不只是停留在理论。

在 Sora 发布之后,网上就有很多关于 OpenAI 下一步计划的猜测。AI 内容创作者 "Kwebbelkop" 称,OpenAI 将收集用户发布的 Sora 视频的数据来进行模型微调,从而让 Sora 变得更加强大。

此外,OpenAI 还将收集这些视频的观看数据增强 Sora 的 RLHF(强化学习自人类反馈算法),这意味着每个人都能通过 Sora 一键创造出社交媒体热门视频。基于此,OpenAI 甚至还将有可能推出一个全新的、完全由 AI 生成内容构成的视频平台,并与 YouTube、TikTok 等展开竞争。

不过,OpenAI 的野心可能不止于此。变革内容生产一直是人们对于生成式 AI 的关注焦点,目前,OpenAI 的人工智能蓝图已经包括文生文的 ChatGPT、文生图的 DALL · E 3、文生 3D 的 Shap · E 以及文生视频的 Sora。

在传统的智能手机、PC 平台,我们已经见识过 ChatGPT 在 AI 生成领域的统治力。但交互模式单一的传统硬件显然未能激发多模态 AI 的全部潜能,就和 AI 颠覆过去一样,电子硬件产品同样也需要加速更新换代,以适应未来潜在的交互需求。

或许正是出于对 AI 交互生态的探索,OpenAI 在 2024 年开年最火的终端电子设备苹果 Vision Pro 推出后,紧急将 ChatGPT 上架 visionOS 应用商店。

ChatGPT 在 Vision Pro 上的推出对于 OpenAI 是一个重要的里程碑,直接向外界展示了未来 AI(尤其是多模态 AI)可能的更自然、更直观、更沉浸的交互方式。

Vision Pro 的眼动、手势追踪(图源:苹果)

可以说,苹果 Vision Pro 与 ChatGPT 的合作使得 XR 设备再次被寄予成为人工智能下一代计算终端新选择的厚望,毕竟其在推出短短一个月内对于工作体验的颠覆就已经让很多科技大佬都直呼 "amazing"。

在苹果 Vision Pro 正式发售后,有不少社交媒体博主开始佩戴 Vision Pro 进行各项日常生活、工作场景体验,其中有不少开发者尝试用 Vision Pro 进行编码工作,并得到了值得参考的 XR 工作体验反馈。

图源:苹果

IT 企业家 Willem 专门用博客记录了他的初次 Vision Pro 编码体验,他表示:" 它不仅非常便携,还能为你的眼睛提供一个完整的虚拟世界!这简直就像我随身携带了个庞大的多显示器设置一样。"

Willem 及其他对 Vision Pro 持有好评的体验者将 Vision Pro 的优势集中在 " 沉浸 " 二字上,既能有媲美真实的编码界面,又能几乎完全屏蔽外界干扰:" 在 Vision Pro 里你几乎与环境融为一体。我喜欢在窗口周围走来走去,看一些代码或服务器输出,感受它是一台大型工作机器。某种程度上来说,我感觉就像站在一个大机房里,这与传统的桌面体验完全不同。"

沉浸式编码体验(图源:willem.com)

而当苹果的 AI 时代到来之后,沉浸式编码的体验将更加魔幻。

知名科技记者马克 · 古尔曼爆料称,苹果公司准备在 iOS 平台编程软件 Xcode 的下一次大版本更新中加入 AI 功能,以对标微软旗下的 GitHub Copilot。

虽然消息表明了苹果该项功能更新意在为 iOS 18、iPadOS 18 和 macOS 15 创造尽可能多的人工智能新功能,但作为苹果苹果未来生产力闭环的重要组成部分,AI 功能上线 visionOS 只是时间问题。

AI 对编程效率的提升是显而易见的,根据 Github 官方的一篇博客,自发布以来,GitHub Copilot 已帮助超过 100 万人提高了开发人员的工作效率,帮助开发人员将编程速度提高了 55%。

图源:Github

而这不仅发生在程序员圈子中,几乎所有 AI 可以参与的办公场景中,工作效率都得到了大额提升。类似的例子有 Adobe 此前为 Meta Quest Pro 开发的一款 3D 建模程序 "Substance 3D",在虚拟世界中的 3D 建模已经完全退化掉了键盘鼠标,只需要简单的手势动作就能轻松捏出设计模型。

继 ChatGPT 之后,成熟后的 Sora 或是其他 AI 生成图像、模型、视频工具都将有可能以应用程序的形式加入 visionOS 生态。AI、Vision Pro 两大科技热门的结合重塑办公、创作体验的模式已初见雏形。

这一科技变革之路需要许许多多人才、企业的前赴后继,幸运的是,苹果并不是 AI+XR 这一想法的唯一践行者,就在 Sora 发布的同一时间节点,还有一件事也搅动了国内的 AI 市场。

2024 年 2 月 18 日,星纪魅族对外宣布将停止传统智能手机新项目的研发,转而 All in AI,全力投入 " 明日设备(AI For New Generations)"。虽然这一决定的原因被归结为 " 手机卖不动了 ",但从其后续的 AI 转型计划来看,魅族更在意的或许是 AI+ 硬件的市场新需求。

图源:星纪魅族

星纪魅族公布的 AI 战略规划的详细内容中,包括了打造 AI Device 产品、重构 Flyme 系统和建设 AI 生态。公司 CEO 沈子瑜在该次视频发布会中强调魅族将打造全新的 AI 设备,用 AI 原生设计重组产品形态,并用更强大的硬件算力支撑 AI 的全局调动。

对于沈子瑜口中的 " 明日设备 ",有不少人猜测会是 AI 手机,毕竟打着 AI 终端名头的魅族 21 Pro 已经上市。但也有部分声音认为,魅族将取代传统手机形态的重任交给了 XR 眼镜。

去年,星纪魅族刚刚发布了搭载自家智能 "FlymeAR" 交互系统的 MYVU AR 眼镜 ,而从其刚刚发布的三年 AI 愿景来看,XR 产品将在星纪魅族 2025 年的产品生态中占据举足轻重的地位。

以苹果 Vision Pro 及其传闻中的 AR 眼镜形态产品为开端,包括星纪魅族、三星、华为、小米、OPPO、 VIVO 等传统手机厂商纷纷入局 XR 赛道,如今,星纪魅族 All in AI,OPPO 也专门成立了 AI 中心,将资源向 AI 集中,就像 iPhone 开创智能手机时代一样,AI+ 智能硬件的组合目前看来将是开启下一个智能计算时代的不二选择。

这一趋势同时也影响了头部的 AI 科技厂商们,除了之前的 OpenAI 筹资 7 万亿美元豪赌芯片帝国的消息外,行业顶部的 AI 生成技术公司 Midjourney 也被曝出正在开发硬件产品。

据称,Midjourney 已经挖角了苹果 Vision Pro 的硬件工程经理 Ahmad Abbas,以协助开发一个收集 3D 数据,管理 3D 模型的工具,甚至于 Midjourney 未来可能推出自己的 VR 头显。

领英界面显示 Ahmad 已加入 Midjourney(图源:linkedin)

在这些头部科技企业看来,AI 离不开硬件这一应用载体,消费硬件产品也需要 AI 的辅助重现智能手机时代的荣光。

如今,AI 的蛋糕争夺战已经开始进入正赛,没有厂商愿意放弃成为下一个 IPhone 的的新机会,无论是苹果自家的 Vision Pro、新形态的 AI Pin 还是手机厂商们设想的 AI 手机,都在探索与 ChatGPT、Sora 等这样的前沿模型融合的最佳模式,在 AI 生成模型踏入爆发阶段的 2024,落伍是硬件厂商们难以接受的,对于 AI" 最佳载体冠名权 " 的你追我赶还将继续。

 第一时间了解 XR 资讯   

   关注 VR 陀螺官网(vrtuoluo.cn)

VR 陀螺的联系方式:

商务合作   |   投稿  :

六六(微信号 13138755620)

寻求免费曝光:

六六(微信号 13138755620)

投稿邮箱:tougao@youxituoluo.com

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 人工智能 twitter 效果 史密斯
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论