实测拿215项SOTA的Qwen3.5-Omni：摄像头一开，AI给我现场讲论文、撸代码

Qwen3.5-Omni 来了！

实测下来最大的感受是—— AI 终于可以和我开着视频会议正经讨论工作了。

能 vibe coding，能给我讲论文，还能帮我拉片。

这不活脱脱一个工作好手！

官方介绍，Qwen3.5-Omni 做到了真正的" 全模态 " 原生，无缝理解文本、图片、音频及音视频输入，能够生成支持细粒度、带时间戳的音视频脚本。

它提供了Plus、Flash、Light三种尺寸，支持 256K 上下文与 113 种语言识别，可处理 10 小时音频或 1 小时视频。

在 benchmark 上的表现也相当强势，Qwen3.5-Omni 拿下了215 项 SOTA，整体成绩跟 Gemini 3.1 Pro 打得有来有回。

其中，通用音频理解、推理、识别、翻译、对话全面超越了 Gemini-3.1 Pro，音视频理解能力总体达到 Gemini-3.1 Pro 水平。

视觉和文本能力则与同尺寸 Qwen3.5 模型持平。

Qwen3.5-Omni 还有一大亮点：自然涌现的 vibe coding 能力。它可以在实时视频通话中，根据画面逻辑生成 Python 代码或前端原型。

消息一出，X 上也沸腾了。有网友评价：

这是一次巨大的飞跃！完全改变了用户与 AI 的交互方式。

老规矩，一波实测走起 ~

一手实测 Qwen3.5-Omni 音视频拆解和分析

先来考考 Qwen3.5-Omni 引以为傲的视频拆解能力。

我给它上传了无字幕版的《疯狂动物城 2》的预告片，让它分析视频，并生成详细的视频的脚本。

要知道，预告片在视频理解领域并不好处理。它节奏紧凑、镜头密集，画面之间没有明确的逻辑关系，出场人物还非常多。

但这对 Qwen3.5-Omni 来说不在话下，大概几秒左右，它就给我生成了一个带时间戳的详细脚本。

可以看到，不仅拆解了分镜和画面，还分析了字幕、特效、音乐、蒙太奇手法等等，每一个出场的人物也都没落下。

接下来进一步增加难度，继续追问：

37 秒左右出场的人物是谁？他们在干什么？

这也难不倒它，几秒钟就给出了答案，并且完全正确。答案就是尼克、朱迪和蓝蛇盖瑞，它还附带分析了音效和氛围。

不过，我还想让它进一步评价一下这支预告片，分析其节奏和手法，以及传递了怎样的思想感情。

这回它也是很快给出了答案，不仅详细分析了 " 快—慢—爆—收 " 的波浪式结构，而且还在没有对话和字幕的情况下，解读出了预告片中的种种隐喻。

这…这不就是活脱脱一个拉片小能手吗！

看视频做网页

接下来，我迫不及待要试一下 Qwen3.5-Omni 最大的亮点——边打视频边 vibe coding。

在 Qwen Chat 里打开视频通话功能，它可以看到你摄像头呈现的画面，还能一边跟你对话，就像跟真人开视频会议一样。

我让它根据我画的前端草图，做一个关于 Geoffery Hinton 的网页：

不知道有没有 uu 体会出来，对面的 AI 小姐姐说话也是很有感情的，语气、停顿、轻笑等等，都和真人很相似。

它领了任务之后，很快就帮我生成了 HTML+CSS 代码，并给出了网页预览，前后不过十多秒钟。

一起来看看它给出的结果吧 ~

嗯……整体效果还是可以的，确实按照我画的草图来设计了前端界面。

由于模型原生支持 WebSearch 和复杂 FunctionCall 的调用能力，这里它也是调用了 WebSearch 来帮我填充内容。

美中不足的是没有填充图片，以及内容还是比较简单了。不过视频通话加上 vibe coding 这一连串下来，给人感觉还是挺惊艳的。

实时对话解读论文

不止如此，Qwen3.5-Omni 还可以一边跟你打视频，一边解读论文。

不知道有没有 uu 跟我一样，觉得 AI 领域的论文实在太难读了！！

不仅全英文，各类图表、公式也很多，艰深术语满天飞，真的很难在没有 AI 辅助的情况下啃明白。

现在有了 Qwen3.5-Omni，也不需要把文章内容复制给 AI 了，直接打开摄像头让它 " 看 "，它就能给我讲明白。

我们打开 Yann LeCun 团队发的世界模型新论文—— LeWorldModel，让它来试一试：

可以看到，Qwen3.5-Omni 根据实时看到的画面，直接用大白话告诉我 LeWorldModel 是个啥东西，跟以往的方法有何不同，创新之处在哪里。

中间我直接打断了它的讲述，问它其中一张图讲了什么，它也会立刻切换节奏回答我。

这也是 Qwen3.5-Omni 这次的一大更新：支持语义打断。

但它非常智能的一点是，不会被附和或无意义的背景音打断。可以听到我中间是有一些开门关门的杂音的，它也没有受干扰，仍然在解读论文。

咱就是说，以后读学术论文更友好了有木有！

不用再对着满屏冷冰冰的术语头疼了，有了 AI 视频通话给你讲论文，可以随时打断或切换重点，情绪价值也能拉满 ~

215 项 SOTA，打平 Gemini 3.1-Pro

接下来详细唠唠 Qwen3.5-Omni 在 benchmark 上的表现。

可以说相当亮眼，Qwen3.5-Omni-Plus 足足拿下了215 项 SOTA，跟 Gemini 3.1-Pro 那是打得有来有回。

在通用音频理解、推理、识别、翻译、对话等指标上，都全面超越了 Gemini 3.1-Pro，音视频理解能力整体达到 Gemini 3.1-Pro 的水平。

视觉和文本能力方面，则与同尺寸 Qwen3.5 模型持平。

官方介绍，与上一代 Qwen3-Omni 相比，Qwen3.5-Omni 在长上下文、多语言、音视频理解能力上都有明显提升。

同时新增了语义打断、音色克隆、语音控制等实时交互能力，让对话体验更接近真人。

配合 ARIA（自适应速率交错对齐）技术，语音输出的稳定性和自然度也进一步改善。

模型架构：会思考 + 会说话

那么，Qwen3.5-Omni 是怎么做到 " 边看边想边输出 " 的呢？

答案在模型架构上。Qwen3.5-Omni 延续了 Thinker-Talker 架构，可以理解成一个 " 会思考 + 会说话 " 的双系统结构：

Thinker（大脑）：负责理解一切输入；

Talker（嘴巴）：负责把结果说出来。

并且这一次，两者都升级为Hybrid-Attention MoE，效率和性能均有显著提升。

Thinker 可以同时处理图像、声音、文本这些不同类型的信息。

模型会把音频和视频 " 混在一起 " 输入（就像一边看一边听），再用一种特殊的位置编码方式去理解它们之间的时间关系。

最终，Thinker 把所有多模态信息 " 想明白 "，并输出成文本。

Talker 更像一个 "AI 配音演员 "，它会根据 Thinker 给出的内容，把文本变成自然的语音。

这里有几个关键升级：第一，语音生成更轻量、更高效。这一代没有再用计算量很大的生成方式，而是换成了一种类似 " 语音压缩编码 " 的方法（RVQ）。

可以理解为不再是现场 " 逐帧渲染声音 "，而是用更高效的 " 拼装声音单元 " 的方式生成语音。好处就是更快、更省算力。

第二，解决 "AI 说话不稳定 " 的老问题。

以前模型在说话时，经常出现漏读、读错、数字发音奇怪等问题，原因在于文本和语音的编码节奏不一样，可以理解为一个说得快，一个说得慢。

Qwen3.5-Omni 引入了一个机制——ARIA（自适应速率交错对齐技术），本质就是动态对齐文本和语音的节奏，再交错组合输出。

可以做到说话更稳、更清晰，基本不会 " 嘴瓢 "。

第三，真正做到 " 实时对话 "。

Qwen3.5-Omni 通过一套 " 边输入、边处理、边生成 " 的流式设计：你还没说完，模型已经在理解；它还没想完，就已经开始说。

这样就可以做到像真人一样实时对话，而不是 " 说一句等三秒 "。

这也是为啥有时跟 Qwen3.5-Omni 对话，会感觉它在抢话，或者你刚说几个字，它就迫不及待接话了。

目前，新模型在Qwen Chat上就可以体验，你也可以通过阿里云百炼搜索 Qwen3.5-Omni 调用 API。注意如果想体验视频通话，需要在手机网页端的 Qwen Chat 上使用 ~

地址已经附在下方，uu 们快去试试吧 ~

Qwen Chat：

https://chat.qwen.ai/

API 离线 :

https://help.aliyun.com/zh/model-studio/qwen-omni

API 实时 :

https://help.aliyun.com/zh/model-studio/realtime

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

谁会代表 2026 年的 AI？

龙虾爆火，带动一波 Agent 与衍生产品浪潮。

但真正值得长期关注的 AI 公司和产品，或许不止于此。

如果你正在做，或见证着这些变化，欢迎申报。

让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签