IT 之家 12 月 1 日消息,小米技术今日宣布,小米 7 篇最新研究成果成功入选 AAAI 2026,其中 2 篇为口头报告,涵盖音效编辑、具身智能 3D Agent、检索、推断解码、语音问答、VLN 导航、自动驾驶等方向。

据介绍,AAAI 是人工智能领域的国际顶级会议之一,由人工智能促进协会(Association for the Advancement of Artificial Intelligence)主办,在中国计算机学会(CCF)推荐会议列表中被列为 A 类会议。AAAI 每年举办一次,AAAI 2026 是该会议的第 40 届,共收到创纪录的 23680 篇有效投稿,总共 4167 篇论文被录取,录取率 17.6%。
IT 之家附论文简介如下:
《AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control》
论文作者:郭新月,杨晓冉,张李攀,杨剑轩,王昭,栾剑
录用类型:主会
论文链接:https://arxiv.org/abs/2511.21146
音效编辑 —— 即通过添加、移除或替换元素来修改音频 —— 目前仍受限于仅依赖低级信号处理或粗粒度文本提示的传统方法,这往往导致编辑灵活性有限且音质欠佳。为此,我们提出 AV-Edit 这一生成式音效编辑框架,通过联合利用视觉、音频与文本语义,实现对视频中现有音轨的细粒度编辑。
具体而言,该方法采用专门设计的对比式视听掩码自编码器( CAV-MAE-Edit )进行多模态预训练,学习对齐的跨模态表征。这些表征随后用于训练编辑型多模态扩散 Transformer( MM-DiT ),通过基于关联的训练策略,能够消除视觉无关的音效并生成与视频内容一致的缺失音频元素。此外,我们构建了专门的视频音效编辑数据集作为评估基准。
实验表明,所提出的 AV-Edit 能基于视觉内容生成具有精确修改的高质量音频,在音效编辑与音频生成领域实现了最先进的性能表现。
作为小米在视频音效领域的首篇顶会论文,生成式音效编辑填补了传统方法在细粒度编辑、多模态语义对齐上的空白,突破了仅靠低级信号处理或粗粒度提示的局限;落地手机等产品后,能让普通用户便捷实现专业级音效修改(如短视频精准加 / 消音),大幅降低创作门槛,重塑移动端音视频编辑体验。


《Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution》
* 表示共同第一作者
论文作者:梁定康 *,张诚 *,许小鹏,鞠建忠,罗振波,白翔
录用类型:主会,口头报告(Oral)
论文链接:https://arxiv.org/abs/2511.19430
在具身智能(Embodied AI)时代,让智能体在 3D 物理世界中高效执行复杂任务至关重要。然而,现有的任务规划研究大多被过度简化,模型只能逐一执行指令,缺乏利用 " 运筹学知识(Operations Research Knowledge)" 进行效率优化的能力。
例如,具身智能体在执行 " 使用微波炉 " 这样的并行任务时,无法利用等待时间去执行 " 洗水槽 " 或 " 擦柜台 " 等其他工作,导致总时长远非最优。同时,这些规划往往缺乏在 3D 空间中的视觉定位能力(3D grounding),难以在真实世界中执行。
为解决 " 任务效率 " 与 " 3D 视觉定位 " 难题,本文首次定义了基于运筹学知识的 3D Grounding 调度这一任务。为推动该任务研究,本文构建了大规模数据集 ORS3D-60K(包含 4K 真实场景中的 60K 个任务)。
此外,本文提出了一个名为 GRANT 的具身多模态大语言模型。GRANT 的核心是一个简洁高效的 " 调度令牌机制 "(Scheduling Token Mechanism, STM)。模型不再自己盲目规划,而是首先识别任务属性(如 " 并行 " 或 " 非并行 "),然后通过一个特殊的 令牌调用外部优化求解器,生成 " 最优执行序列 "。该序列随后被注入模型,引导其生成高效且在 3D 空间中精确定位的步骤化行动。
实验证明,GRANT 在任务调度效率上相比基线方法取得了高达 30.53% 的显著提升,同时在 3D grounding 准确率上也获得增益,验证了其在空间理解、3D grounding 和调度效率方面的全面有效性。

《AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale》
〡本文受小米揭榜挂帅科研专项支持
* 表示共同第一作者
论文作者:王资洋 *,郑元雷 *,曹振彪,张晓今,魏忠钰,付培,罗振波,陈伟,白翔
录用类型:主会
论文链接:https://arxiv.org/abs/2511.17190
在工业级 Text-to-SQL 场景中,数据库规模往往极为庞大(动辄数百至数千列),将完整模式直接输入大语言模型不仅会引入大量无关噪声,而且容易触发上下文长度限制,从而影响 SQL 生成的准确性。因此,如何在不暴露完整数据库结构的前提下,高召回地筛选出与用户问题相关的模式子集(Schema Linking)成为核心难点。
为解决这一问题,本文提出 AutoLink,一种由大模型驱动的自适应、逐步式模式连接框架。AutoLink 不再一次性提供全量模式,而是模拟数据库工程师的探索式工作方式,在数据库环境与向量检索环境之间进行多轮交互,通过 " 检索 → 探索 → 验证 → 扩展 " 的迭代过程,动态构建与问题相关的模式子集,实现高召回与低噪声的平衡。
该框架不需要遍历全模式,也无需将数据库完整结构输入语言模型,具备高度可扩展性。实验结果表明,AutoLink 在多个主流基准上取得了显著优势:在 Bird-Dev 上实现 97.4% 的严格模式召回率(SRR),在大规模 Spider 2.0-Lite 上达到 91.2% 的 SRR,均为当前最优表现。
同时,AutoLink 在保持高执行准确率的前提下显著降低 Token 消耗,即便在拥有 3000+ 列的超大数据库中依旧保持稳定性能,展示了工业级可落地的鲁棒性与可扩展性。

《Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios》
〡本文受小米揭榜挂帅科研专项支持
论文作者:史洛合,李祖超,张乐飞,齐保元,刘国明
录用类型:主会,口头报告(Oral)
论文链接:https://arxiv.org/abs/2511.20340
大语言模型(Large Language Models, LLMs)自回归解码由于其低运算强度常出现访存带宽瓶颈并浪费算力。投机解码(Speculative Decoding)通过草稿模型猜测后续 token 以增强主模型的并行性。目前的主要研究方法通过扩充草稿 token 数量来增强准确率,在单样本下行取得了很好的效果。
诚然,在一定的批大小下,这类方法性能迅速退化,由于在可供使用的冗余算力减小的同时,每个样本能够分配到的草稿 token 数量也快速降低,同时串行生成草稿 token 也会占据过多时间。
通过分析这些问题,我们提出了一种新的并行草稿 token 生成算 SpecFormer。通过将单向和双向的两个 Transformer 层堆叠,并在输入 token 和草稿 token 两个维度上进行注意力运算,我们可以基于完整的输入序列进行预测,并且并行化的生成全部的草稿 token。
SpecFormer 是一个具有更强语言建模能力并且并行化的草稿模型,可以高质高效的完成草稿 token 预测任务,并且在较为有限的条件下,也就是中大批大小下,得到更佳的预测质量,同时减少草稿 token 运行时间,总体上得到更好的加速效果。

《End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering》
〡本文受小米揭榜挂帅科研专项支持
论文作者:胡继亮,李祖超,齐保元,刘国明,王平
录用类型:主会
论文链接:https://arxiv.org/abs/2511.09282
近年来,语音问答(SQA)领域取得了显著进展。然而,包括大型音频语言模型(LALM)在内的许多现有方法在处理长音频时仍面临困难。随着检索增强生成技术的成功,语音相关检索器在预处理长语音方面展现出潜力,但现有语音检索器的性能仍有不足。
为应对这一挑战,我们提出了 CLSR —— 一种端到端的对比式语音 - 语言检索器,能够高效地从长音频录音中提取与问题相关的片段,以支持下游语音问答任务。
与传统语音 - 文本对比模型不同,CLSR 在模态对齐前引入了将声学特征转换为类文本表征的中间步骤,从而更有效地弥合模态差异。
在四个跨模态检索数据集上的实验结果表明,CLSR 既优于端到端的语音相关检索器,也超越了结合语音识别与文本检索的流水线方法,为推进实用型长语音问答应用奠定了坚实基础。

《What You See Is What You Reach: Towards Spatial Navigation with High-Level Human Instructions》
* 表示共同第一作者 †表示共同通讯作者
论文作者:张凌峰 *,傅昊翔 *,郝孝帅†,张书逸,张强,刘瑞,陈龙,丁文伯†
录用类型:主会
论文链接:https://openreview.net/pdf?id=ow65qpDY3Q
本文提出了空间导航(Spatial Navigation)任务,使智能体能够理解 " 在沙发左侧空地等我 " 等高级人类指令并完成相应的导航。
与传统方法仅限于识别预定义物体类别或执行详细路径指令不同,该任务要求智能体结合空间关系推理,完成空间物体导航(SpON)和空间区域导航(SpAN)两类任务。
研究团队构建了一个包含 10,000 条轨迹的数据集,并提出了 SpNav 分层框架。该框架通过视觉 - 语言模型解析指令,利用专门训练的 NaviPoint 模型进行目标定位,最后基于地图的 Map-to-Action 模块实现精确导航。
实验结果表明,SpNav 在导航性能上达到了当前最先进水平(SOTA),超越了之前的最佳基线,并且在真实环境中实现了零样本迁移。
这项工作首次系统地解决了具身导航中复杂空间关系理解与高级指令解析的结合问题,为家庭服务机器人等实际应用中的自然人机互动奠定了基础。

《VILTA:A VLA-in-the-Loop Adversary for Enhancing Driving Policy Robustness》
论文作者:陈其茂,李方,徐少清,赖志懿,谢子勋,罗悦晨,蒋盛银,李汉冰,陈龙,王兵,张毅,杨志新
录用类型:主会
当前,自动驾驶领域的开源数据集在丰富性方面仍显不足。尽管策略网络在常规场景中的学习性能已趋于收敛,但在长尾困难场景下的表现依然有限。
为此,本文提出 VILTA(VLA-in-the-Loop Trajectory Adversary),旨在解决长尾场景数据稀缺以及现有生成方法多样性不足的问题。VILTA 创新性地将视觉语言模型(VLM)直接嵌入训练闭环,构建了一种 " 视觉–语言–编辑 "(Vision-Language-Editing)的新范式。
该方法充分利用 VLM 强大的场景理解能力,对周围车辆的未来轨迹进行精细化的对抗性编辑,摒弃了传统两阶段生成流程。同时,通过引入后处理机制确保生成轨迹的运动学可行性,从而能够高效生成既符合物理规律又极具挑战性的多样化驾驶场景。
在 CARLA 仿真环境中的实验表明,经强化学习优化后的策略显著降低了碰撞率,大幅提升了自动驾驶系统在极端场景下的鲁棒性,为端到端策略在长尾场景中的优化提供了有效验证与可行路径。



登录后才可以发布评论哦
打开小程序可以发布评论哦