IT之家 21小时前
阿里云栖大会发布六大AI模型及通义百聆品牌,覆盖全场景应用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 9 月 24 日消息,在今日的 2025 云栖大会上,阿里集团董事兼 CEO 吴泳铭表示,积极推进 3800 亿 AI 基础设施建设,并计划追加更大投入。会上,阿里推出了 6 款新模型 + 1 个全新品牌:

Qwen MAX:万亿参数大模型,Coding 与工具调用能力登顶国际榜单;

Qwen3-Omni:新一代原生全模态大模型,真正实现 " 全模态不降智 ";

Qwen3-VL:Agent 和 Coding 能力全面提升,真正 " 看懂、理解并响应世界 ";

Qwen-Image:再升级!真正实现 " 改字不崩脸、换装不走样 ";

Qwen3-Coder:256K 上下文修复项目,TerminalBench 分数大幅提升;

Wan2.5-Preview:音画同步视频生成,图像支持科学图表与艺术字;

通义百聆:企业级语音基座大模型,攻克企业落地语音模型的 " 最后一公里 ";

其中,通义千问 Qwen-MAX、Qwen3-Omni、 Qwen-Image-Edit-2509 此前已有报道。

至于其余模型,Qwen3-VL 是一款真正实现 " 看懂世界、理解事件、做出行动 " 的视觉理解模型,支持 2 小时视频精确定位(如 " 第 15 分钟穿红衣者做了什么 "),OCR 语言从 19 种扩展至 32 种,生僻字、古籍、倾斜文本识别率显著提升;原生支持 256K 上下文,可扩展至 100 万 token,适配超长视频与文档分析。

本次发布重点强化以下能力:

视觉智能体:可操作电脑和手机界面,识别 GUI 元素、理解按钮功能、调用工具并执行任务,在 OS World 等评测中达到世界顶尖水平;

可视化编程:看到 UI 设计图或流程图,可直接生成 HTML / CSS / JS 代码或 Draw.io 图表,大幅提升产品与开发协作效率;

空间感知与 3D Grounding:支持判断物体方位、视角变化与遮挡关系,为具身智能、机器人导航、AR / VR 等场景提供底层支持;

超长视频理解与行为分析:不仅能理解 2 小时视频内容,还能精准回答 " 第 15 分钟穿红衣者做了什么 "" 球从哪个方向飞入画面 " 等时序与行为问题;

Thinking 版本强化 STEM 推理:在 MathVista、MathVision、CharXiv 等评测中达 SOTA 水平,可精准解析科学图表、公式与文献图像;

视觉感知全面升级:优化预训练数据,支持 " 万物识别 " —— 从名人、动漫角色、商品、地标到动植物,覆盖生活与专业场景;

多语言 OCR 与复杂场景支持:语言扩展至 32 种,复杂光线、模糊、倾斜文本识别更稳定,生僻字、古籍字、专业术语召回率显著提升;

安防感知与风险预警:在家庭、商场、街区、道路等真实场景中,对风险人物与事件的检测准确率达到行业领先水平;

长上下文原生支持:256K 起步,可扩展至 100 万 token,支持整本教材、数小时会议录像的全程记忆与精准检索。

Qwen-Image 是开源图片编辑专家,本次也迎来全新升级,新版本支持多图参考编辑,强化人脸、商品、文字 ID 一致性,并原生集成 ControlNet,实现 " 改字不崩脸、换装不走样 " 的工业级稳定性,满足电商、设计、广告等高要求场景。

本次升级核心亮点:

多图编辑支持:对于多图输入,Qwen-Image-Edit-2509 基于 Qwen-Image 基模,不仅能够处理各种单图编辑场景,而且全新支持了多种多图编辑场景,提供 " 人物 + 人物 "," 人物 + 商品 "," 人物 + 场景 " 等多种新玩法。

单图编辑一致性增强:对于单图编辑场景,Qwen-Image-Edit-2509 相比之前,显著提高了各个维度的一致性,主要体现在以下方面:

人物编辑一致性增强:增强人物 ID 保持,支持各种风格肖像、姿势变换;

商品编辑一致性增强:增强商品 ID 保持,支持各种商品海报编辑;

文字编辑一致性增强:除了支持文字内容修改外,还支持多种文字字体、色彩以及材质编辑;

原生支持 ControlNet:支持包括深度图、边缘图、关键点图等引导信息。

Qwen3-Coder 上下文代码专家本次迎来能力升级,通过 Agentic Coding 联合训练优化,TerminalBench 分数大幅上涨,在 OpenRouter 平台一度成为全球第二流行的 Coder 模型(IT 之家注:仅次于 Claude Sonnet 4)。支持 256K 上下文,可一次性理解并修复整个项目级代码库,推理速度更快、Token 消耗更少、安全性更高,被开发者誉为 " 可一键修复复杂项目的负责任 AI"。

Agentic Coding 联合训练:与 Qwen Code 或 Claude Code 联合优化,在 CLI 应用场景效果显著提升;

项目级代码理解:256K 上下文支持,可处理跨文件、多语言的复杂项目;

推理效率优化:相比上代模型,推理速度更快,用更少 Token 达成更优效果;

代码安全性提升:强化漏洞检测与恶意代码过滤,迈向 " 负责任的 AI";

多模态输入支持:搭配 Qwen Code 系统,支持上传截图 + 自然语言指令生成代码,全球领先。

通义万相 Wan2.5-Preview 音画同步创意引擎首次原生支持音画同步,全面提升视频生成、图像生成、图像编辑三大核心能力,满足广告、电商、影视等商业级内容生产需求。

视频生成 —— 会 " 配音 " 的 10 秒电影:

原生音画同步:视频自带人声(多人)、ASMR、音效、音乐,支持中文、英文、小语种及方言,画面与声音严丝合缝;

10 秒长视频生成:时长提升 1 倍,最高支持 1080P 24fps,动态表现力与结构稳定性大幅提升,叙事能力跃升;

指令遵循提升:支持复杂连续变化指令、运镜控制、结构化提示词,精准还原用户意图;

图生视频保 ID 优化:人物、商品等视觉元素一致性显著提升,商业广告与虚拟偶像场景可用;

通用音频驱动:支持上传自定义音频作为参考,搭配提示词或首帧图生成视频,实现 " 用我的声音讲你的故事 "。

文生图 —— 能 " 写字 " 的设计大师:

美学质感提升:真实光影、细节质感表现力增强,擅长不同艺术风格与设计质感还原;

稳定文字生成:支持中英文、小语种、艺术字、长文本、复杂构图精准渲染,海报 / LOGO 一次成型;

图表直接生成:可输出科学图表、流程图、数据图、架构图、文字内容表格等结构化图文;

指令遵循提升:复杂指令精细化理解,具备逻辑推理能力,可精准还原现实 IP 形象与场景细节。

图像编辑 —— " 改字不崩脸 " 的工业级修图:

指令编辑:支持丰富编辑任务(换背景 / 改颜色 / 加元素 / 调风格),指令理解精准,无需专业 PS 技能;

一致性保持:支持单图 / 多图参考垫图,人脸、商品、风格等视觉元素 ID 强保持,编辑后 " 人还是那个人,包还是那个包 "。

通义百聆是通义实验室推出的全新品牌,是一款企业级语音基座大模型,整合了领先的 Fun-ASR 语音识别大模型与 Fun-CosyVoice 语音合成大模型,致力于攻克复杂环境下的语音落地应用难题。

Fun-ASR 语音识别大模型专治语音识别中的 " 幻觉输出 "" 串语种 "" 热词失效 " 三大行业痛点。通过首创的 Context 增强架构(CTC+LLM+RAG),幻觉率从 78.5% 降至 10.7%,基本根治串语种问题。

支持热词动态注入与跨语种语音克隆,行业术语 100% 准确召回。Fun-CosyVoice 语音合成大模型采用创新性的语音解耦训练方法,大幅提升音频合成效果,并支持跨语种语音克隆。核心能力速览:

幻觉率大幅下降:通过 Context 增强架构,将 CTC 初筛结果作为 LLM 上下文,幻觉率从 78.5% 降至 10.7%,输出更稳定可靠;

彻底解决串语种问题:CTC 解码文本输入 LLM Prompt,极大缓解英文录音输出中文等 " 自动翻译 " 现象;

强定制化能力:引入 RAG 机制动态注入术语库,支持人名、品牌、行业黑话(如 "ROI"" 私域拉新 ")精准识别,5 分钟完成配置;

跨语种语音克隆:采用多阶段训练方法,一个音色可说遍全球,声音相似度行业领先;

行业场景全覆盖:基于数千万小时真实音频训练,覆盖金融、教育、制造、互联网、畜牧等 10+ 行业,深入产业一线。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 ai 机器人 吴泳铭 公式
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论