Meta 发布 SAM Audio，多模态音频分离新突破

Meta发布首个统一多模态音频分离模型，支持通过文本、视觉或时间段提示从复杂音频中精准提取目标声音。模型基于感知编码器视听技术，用户可点击视频中物体分离对应音频，或输入”狗吠”等文本指令过滤噪音。更多详情...