量子位 昨天
实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Qwen3.5-Omni 来了!

实测下来最大的感受是—— AI 终于可以和我开着视频会议正经讨论工作了。

能 vibe coding,能给我讲论文,还能帮我拉片。

这不活脱脱一个工作好手!

官方介绍,Qwen3.5-Omni 做到了真正的" 全模态 " 原生,无缝理解文本、图片、音频及音视频输入,能够生成支持细粒度、带时间戳的音视频脚本。

它提供了Plus、Flash、Light三种尺寸,支持 256K 上下文与 113 种语言识别,可处理 10 小时音频或 1 小时视频。

在 benchmark 上的表现也相当强势,Qwen3.5-Omni 拿下了215 项 SOTA,整体成绩跟 Gemini 3.1 Pro 打得有来有回。

其中,通用音频理解、推理、识别、翻译、对话全面超越了 Gemini-3.1 Pro,音视频理解能力总体达到 Gemini-3.1 Pro 水平。

视觉和文本能力则与同尺寸 Qwen3.5 模型持平。

Qwen3.5-Omni 还有一大亮点:自然涌现的 vibe coding 能力。它可以在实时视频通话中,根据画面逻辑生成 Python 代码或前端原型。

消息一出,X 上也沸腾了。有网友评价:

这是一次巨大的飞跃!完全改变了用户与 AI 的交互方式。

老规矩,一波实测走起 ~

一手实测 Qwen3.5-Omni 音视频拆解和分析

先来考考 Qwen3.5-Omni 引以为傲的视频拆解能力。

我给它上传了无字幕版的《疯狂动物城 2》的预告片,让它分析视频,并生成详细的视频的脚本。

要知道,预告片在视频理解领域并不好处理。它节奏紧凑、镜头密集,画面之间没有明确的逻辑关系,出场人物还非常多。

但这对 Qwen3.5-Omni 来说不在话下,大概几秒左右,它就给我生成了一个带时间戳的详细脚本。

可以看到,不仅拆解了分镜和画面,还分析了字幕、特效、音乐、蒙太奇手法等等,每一个出场的人物也都没落下。

接下来进一步增加难度,继续追问:

37 秒左右出场的人物是谁?他们在干什么?

这也难不倒它,几秒钟就给出了答案,并且完全正确。答案就是尼克、朱迪和蓝蛇盖瑞,它还附带分析了音效和氛围。

不过,我还想让它进一步评价一下这支预告片,分析其节奏和手法,以及传递了怎样的思想感情。

这回它也是很快给出了答案,不仅详细分析了 " 快—慢—爆—收 " 的波浪式结构,而且还在没有对话和字幕的情况下,解读出了预告片中的种种隐喻。

这…这不就是活脱脱一个拉片小能手吗!

看视频做网页

接下来,我迫不及待要试一下 Qwen3.5-Omni 最大的亮点——边打视频边 vibe coding。

在 Qwen Chat 里打开视频通话功能,它可以看到你摄像头呈现的画面,还能一边跟你对话,就像跟真人开视频会议一样。

我让它根据我画的前端草图,做一个关于 Geoffery Hinton 的网页:

不知道有没有 uu 体会出来,对面的 AI 小姐姐说话也是很有感情的,语气、停顿、轻笑等等,都和真人很相似。

它领了任务之后,很快就帮我生成了 HTML+CSS 代码,并给出了网页预览,前后不过十多秒钟。

一起来看看它给出的结果吧 ~

嗯……整体效果还是可以的,确实按照我画的草图来设计了前端界面。

由于模型原生支持 WebSearch 和复杂 FunctionCall 的调用能力,这里它也是调用了 WebSearch 来帮我填充内容。

美中不足的是没有填充图片,以及内容还是比较简单了。不过视频通话加上 vibe coding 这一连串下来,给人感觉还是挺惊艳的。

实时对话解读论文

不止如此,Qwen3.5-Omni 还可以一边跟你打视频,一边解读论文。

不知道有没有 uu 跟我一样,觉得 AI 领域的论文实在太难读了!!

不仅全英文,各类图表、公式也很多,艰深术语满天飞,真的很难在没有 AI 辅助的情况下啃明白。

现在有了 Qwen3.5-Omni,也不需要把文章内容复制给 AI 了,直接打开摄像头让它 " 看 ",它就能给我讲明白。

我们打开 Yann LeCun 团队发的世界模型新论文—— LeWorldModel,让它来试一试:

可以看到,Qwen3.5-Omni 根据实时看到的画面,直接用大白话告诉我 LeWorldModel 是个啥东西,跟以往的方法有何不同,创新之处在哪里。

中间我直接打断了它的讲述,问它其中一张图讲了什么,它也会立刻切换节奏回答我。

这也是 Qwen3.5-Omni 这次的一大更新:支持语义打断

但它非常智能的一点是,不会被附和或无意义的背景音打断。可以听到我中间是有一些开门关门的杂音的,它也没有受干扰,仍然在解读论文。

咱就是说,以后读学术论文更友好了有木有!

不用再对着满屏冷冰冰的术语头疼了,有了 AI 视频通话给你讲论文,可以随时打断或切换重点,情绪价值也能拉满 ~

215 项 SOTA,打平 Gemini 3.1-Pro

接下来详细唠唠 Qwen3.5-Omni 在 benchmark 上的表现。

可以说相当亮眼,Qwen3.5-Omni-Plus 足足拿下了215 项 SOTA,跟 Gemini 3.1-Pro 那是打得有来有回。

在通用音频理解、推理、识别、翻译、对话等指标上,都全面超越了 Gemini 3.1-Pro,音视频理解能力整体达到 Gemini 3.1-Pro 的水平。

视觉和文本能力方面,则与同尺寸 Qwen3.5 模型持平。

官方介绍,与上一代 Qwen3-Omni 相比,Qwen3.5-Omni 在长上下文、多语言、音视频理解能力上都有明显提升。

同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。

配合 ARIA(自适应速率交错对齐)技术,语音输出的稳定性和自然度也进一步改善。

模型架构:会思考 + 会说话

那么,Qwen3.5-Omni 是怎么做到 " 边看边想边输出 " 的呢?

答案在模型架构上。Qwen3.5-Omni 延续了 Thinker-Talker 架构,可以理解成一个 " 会思考 + 会说话 " 的双系统结构:

Thinker(大脑):负责理解一切输入;

Talker(嘴巴):负责把结果说出来。

并且这一次,两者都升级为Hybrid-Attention MoE,效率和性能均有显著提升。

Thinker 可以同时处理图像、声音、文本这些不同类型的信息。

模型会把音频和视频 " 混在一起 " 输入(就像一边看一边听),再用一种特殊的位置编码方式去理解它们之间的时间关系。

最终,Thinker 把所有多模态信息 " 想明白 ",并输出成文本。

Talker 更像一个 "AI 配音演员 ",它会根据 Thinker 给出的内容,把文本变成自然的语音。

这里有几个关键升级:第一,语音生成更轻量、更高效。这一代没有再用计算量很大的生成方式,而是换成了一种类似 " 语音压缩编码 " 的方法(RVQ)。

可以理解为不再是现场 " 逐帧渲染声音 ",而是用更高效的 " 拼装声音单元 " 的方式生成语音。好处就是更快、更省算力。

第二,解决 "AI 说话不稳定 " 的老问题。

以前模型在说话时,经常出现漏读、读错、数字发音奇怪等问题,原因在于文本和语音的编码节奏不一样,可以理解为一个说得快,一个说得慢。

Qwen3.5-Omni 引入了一个机制——ARIA(自适应速率交错对齐技术),本质就是动态对齐文本和语音的节奏,再交错组合输出。

可以做到说话更稳、更清晰,基本不会 " 嘴瓢 "。

第三,真正做到 " 实时对话 "。

Qwen3.5-Omni 通过一套 " 边输入、边处理、边生成 " 的流式设计:你还没说完,模型已经在理解;它还没想完,就已经开始说。

这样就可以做到像真人一样实时对话,而不是 " 说一句等三秒 "。

这也是为啥有时跟 Qwen3.5-Omni 对话,会感觉它在抢话,或者你刚说几个字,它就迫不及待接话了。

目前,新模型在Qwen Chat上就可以体验,你也可以通过阿里云百炼搜索 Qwen3.5-Omni 调用 API。注意如果想体验视频通话,需要在手机网页端的 Qwen Chat 上使用 ~

地址已经附在下方,uu 们快去试试吧 ~

Qwen Chat:

https://chat.qwen.ai/

API 离线 :

https://help.aliyun.com/zh/model-studio/qwen-omni

API 实时 :

https://help.aliyun.com/zh/model-studio/realtime

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

谁会代表 2026 年的 AI?

龙虾爆火,带动一波 Agent 与衍生产品浪潮。

但真正值得长期关注的 AI 公司和产品,或许不止于此。

如果你正在做,或见证着这些变化,欢迎申报。

让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai flash 翻译
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论