IT之家 2025-12-17
Meta发布SAM Audio,多模态音频分离新突破
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 12 月 17 日消息,Meta 今日发布了首个统一的多模态音频分离模型 —— SAM Audio

Meta 表示 SAM Audio 是一个 " 最先进的统一模型 ",通过使用自然的、多模态的提示,使音频处理变得简单,能够轻松地从复杂的音频混合中分离出任何声音 —— 无论是通过文本、视觉提示还是时间段标记。这种直观的方法模拟了人们自然与声音互动的方式,使音频分离更加易于使用和实用。

SAM Audio 的核心是感知编码器视听(PE-AV),这是一个帮助实现先进性能的技术引擎。PE-AV 基于 Meta 今年早些时候分享的开源感知编码器模型构建,它使人们能够创建更先进的计算机视觉系统,以协助日常任务,包括声音检测。

▲ SAM Audio 核心架构

Meta 官方把 PE-AV 类比为 " 耳朵 ",帮助 SAM Audio 这个 " 大脑 " 完成音频分割任务。比如,一段乐队演出的视频录像,只需点击一下吉他,就能分离出吉他音频

SAM Audio 还可以通过文本提示来分离音频,例如从户外拍摄的视频中过滤掉嘈杂的交通噪音。此外,跨度提示功能可以帮助人们一次性解决音频问题,例如在整个播客录音中过滤掉狗叫声的噪音。

SAM Audio 提出了三种音频分割方法,可以单独使用或任意组合以达到所需的效果:

文本提示:输入 " 狗吠 " 或 " 人声演唱 " 以提取特定的声音。

视觉提示:在视频中点击说话的人或发声的物体,以分离其音频。

时间片段提示:这是行业首创的方法,允许用户标记目标音频出现的时间段,类似《赛博朋克 2077》里的超梦。

Meta 还发布了 SAM Audio-Bench,这是首个真实场景下的音频分离基准测试;以及 SAM Audio Judge,这是首个用于音频分离的自动评估模型。

Meta 今日发布了第二个模型 —— Perception Encoder Audiovisual,是 SAM Audio 成果的核心引擎。它支持核心组件,如主要的字幕生成模型和 SAM Audio Judge。该模型基于 Meta 于四月发布的开源模型 Meta Perception Encoder 构建,PE-AV 将计算机视觉能力扩展到了音频领域。

IT 之家附 SAM Audio 访问地址如下:

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 it之家 计算机视觉 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论