学术头条 02-09
还在玩 Vibe Coding?南京大学团队提出了 Vibe AIGC
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

继 Andrej Karpathy 提出 Vibe Coding 之后,南京大学 NJU-LINK 团队联合快可灵团队又提出了 Vibe AIGC,宣告了 AIGC 正在从 " 模型中心 " 向 " 智能体编排 " 转型。未来,人类不再是试错的提示词工程师,而是统领多智能体(Agent)的指挥官。

在过去的十年里,生成式人工智能经历了从以模型为中心的范式到多智能体协作模型的转变。AI 的发展轨迹一直被 " 模型中心 " 的范式所主导,大家都在追求更大的参数量和更强的端到端模型。

然而,尽管 AI 生成的画质越来越逼真,创作者们却撞上了一层看不见的 " 技术黑盒 "。目前的生成过程更像是一场 " 开盲盒 ",创作者脑海中宏大的构思与模型随机生成的黑盒结果之间,存在着巨大的 " 意图——执行鸿沟 "。创作者需要通过反复调整提示词、进行大量的调整,才能获得接近预期的结果。

为了填补这一空白,研究团队提出了 Vibe AIGC。

图|内容生成向 Vibe AIGC 时代推进:结构组合驱动的系统性飞跃。

通过应用研究发现,Vibe AIGC 使得人类创意和机器执行之间的协作更加顺畅,使复杂的创作变得更易于掌控,也为非专家创造者提供了新的创作可能。

受到 "Vibe Coding" 的启发,Vibe AIGC 是一种通过智能体编排进行内容生成的新范式。内容不应该是瞬时的随机推断,而应该是由 " 元规划器 "(Meta Planner)指挥下的多智能体协作工程。

图|Vibe AIGC 架构示意图。

1. 用户即指挥官

在 Vibe AIGC 中,用户的身份彻底变了。不再需要纠结于具体的底层参数或提示词细节,人类作为指挥官,人类提供略部骤提供 Vibe 环境——一种包含美学偏好、功能逻辑和高层意图的综合表征。它不是一句简单的指令,而是一种通过对话维持的持续潜在状态,之后由 AI 系统自主决定战术执行。

图|AutoPR 中的协作多智能体流水线。

2. 元规划器:系统架构师

如果用户是指挥官,那元规划器就是系统架构师。它不仅仅是生成文本,而是负责接收用户的自然语言指令,并将其翻译成全局的系统调度方案。

图|Poster Copilot 中的协作多智能体流水线。

元规划器首先在创意层生成宏观层 SOP 蓝图,然后将该逻辑传播到算法层,自动推导和配置工作流程图结构。这种层级设计确保系统能够在宏观层面理解 " 导演的愿景 ",并在微观层面精确控制 " 技术人员操作 "。本质上,Vibe AIGC 的顶层设计不是静态工具包,而是由元规划器驱动的动态决策流:它实时感知用户的 "Vibe",通过专家知识消除意图,最终从上而下发展出精确且可执行的工作流程。

3. 随机推断转向逻辑编排

在意图扩展和消歧完成后,系统进入智能体编排阶段。元规划师的角色从创意总监转变为动态编译者。

在音乐视频生成的场景中,系统会调用编剧智能体根据音乐节拍撰写脚本,再由导演智能体管理角色库并协调视频生成工具,确保全片风格和角色一致。

图 | AutoMV 中的协作多智能体流水线

对于 Vibe AIGC 的前景,团队并未盲目乐观,而是同时指出了 Vibe AIGC 面临的四大哲学与技术挑战。

1." 苦涩的教训 " 和模型中心性

Rich Sutton 曾提出 " 苦涩的教训 ",认为利用算力的通用方法最终会胜过利用人类知识的方法。" 意图——执行鸿沟 " 可能只是因为当前模型还不够大。

如果某个单一的基础模型最终能够实现几乎完美的内部世界模型,那么复杂的智能体协作层可能会变得多余。从这个角度来看,Vibe 只是当前模型无法处理的高熵提示,而未来的模型可能在没有多智能体协作的情况下就能直接执行这些任务。

2. 控制的悖论:指挥官与工匠

从提示工程师到指挥官的转变假设用户更倾向于高层次的创意意图,而非对创作细节的精细控制。然而,专业创作者往往需要 " 像素级 " 的控制,这种精确控制可能是自然语言本身所无法完全提供的。

Vibe AIGC 可能会引入一个 " 意图黑箱 ",即抽象的 " 如何做 " 可能会牺牲精确的专业控制,导致 AI 对创意的解读超过了创作者的独特创作风格,从而引发 " 美学同质化 " 的问题。

3. 验证危机:二元成功与美学主观性

在编程中,代码要么运行成功,要么报错。但在艺术创作中,是没有单元测试能告诉你现在的画面是否足够具有美感的。

Vibe AIGC 的一个根本性挑战是缺乏确定性的反馈回路。在编程中,代码要么通过编译并通过单元测试,要么失败,这种验证机制使得模型能够在迭代中接近正确答案。而在生成内容时,Vibe 本身是一种主观的创意目标,并没有统一的标准来验证 " 电影氛围 " 或 " 悲伤节奏 " 等抽象的美学要求。缺乏客观的验证标准可能导致智能体协作层出现 " 美学幻觉 ",即输出未能实现创作者的潜在创意意图。

4. 累积失败与缺失的 " 编译器 "

智能体协作的工作流将仍然是数字创作中的一个脆弱指南,依赖 " 递归协作 " 引入了显著的系统性风险,即错误的累积。在编程中,编译器作为硬性约束,会拦截逻辑错误。然而,Vibe AIGC 依赖多个智能体进行工作,稍有上游智能体出现语义偏差,就可能在整个工作流中产生错误。与模块化软件不同,生成的内容往往存在 " 内容泄漏 " 或像素错位等问题,这些问题目前的协作层无法通过 " 调试 " 来解决。直到开发出类似于 " 美学编译器 " 的工具。

AI 领域正处于一个关键的转折点,单纯依靠模型的扩展已经无法弥补人类想象力与机器执行之间的差距。

论文提出的 Vibe AIGC 范式,重新定义了内容创作的方式,将创作过程视为由多个智能体协作完成的系统性工程,帮助 AI 从一个脆弱的推理引擎转变为一个强大的系统级创作伙伴。而未来的生成式 AI 将更多依赖于智能体的协调与协作,而非单一模型的扩展。

论文最后发出了行动号召,呼吁学术界和产业界共同构建 Vibe AIGC 的基础设施。

1. 研究人员:开发 " 创意单元测试 "

CLIP 或困惑度等指标,对于 Vibe AIGC 时代来说是不够的。团队呼吁学术界超越仅评估像素保真度,转而开发衡量智能逻辑一致性的基准。需要 " 创意单元测试 ",评估多智能体系统是否能成功将复杂、模糊的 " 氛围 " 分解成跨多种模式的逻辑合理且时间一致的工作流程。

2. 行业领袖:拥抱 " 微型基础模型 "

单一的大型语言模型在专业工作流程中在架构上效率低下。行业领袖和人工智能实验室应转向培训和开源专业基础智能体。社区需要的是高效、轻量级的智能体,而不是单一的大型语言模型。专门用于小众创意任务——比如基于电影理论的 " 电影智能体 ",或用于工作流程综合的 " 创意导演智能体 "。

3. 软件架构师:建立 AIGC 协议

Vibe AIGC 的成功依赖于不断发展的协作智能体生态系统。因此团队呼吁建立开放智能体互作标准 ( 例如,AIGC 协议 ) 。这将允许来自不同开发者的智能体共享共同的 " 字符库 "、" 全局风格状态 " 和 " 情景记忆 "。

4. 数据科学社区:构建 " 意图到工作流 " 数据集

当前数据集主要为由静态图像——文本组成。实现 Vibe AIGC 时代需要一类新的 " 循环推理 " 数据集。需要将高层次创造意图与实现其所需的层级推理步骤和多模态子任务对应起来的数据。这将使培养能够 " 先思考再创造 " 的元规划者成为可能。

Vibe AIGC 开辟了一条新的道路,进行了一次生产关系的变革。它试图将人类从繁琐的 " 数字搬运 " 中解放出来,让用户回归到最核心的角色——创意的主人。

正如论文所言:" 未来的数字经济,将建立在可验证的意图、长期的连贯性以及真正的人机协作基础之上。" 让 AI 摆脱脆弱的推理引擎,转向稳健的系统级工程伙伴,这不仅是技术的升级,更是人类与人工智能协作经济的重塑。

作者:王江珏

如需转载或投稿,请直接在本文章评论区内留言。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

南京大学 人工智能 工程师
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论