小米开源可控视频音效生成模型 ControlFoley，实现精准声音生成-数码影音频道专区

小米开源可控视频音效生成模型 ControlFoley，实现精准声音生成

作者：钟钧渤编辑：钟钧渤 2026-06-03 15:38 IT168网站原创

“AI摘要”

小米AI实验室开源了可控视频音效生成模型ControlFoley。该模型基于Diffusion架构，在超100万条视频-音频配对数据上训练，能根据视频画面自动生成匹配的环境音效和背景音乐，并支持用户通过文本指令精准控制音效风格、强度和节奏。核心创新在于“可控性”，可识别动作、场景和物体生成脚步声、风声等音效，支持48kHz采样率输出，单条音效生成仅需3-5秒。主要应用于短视频、游戏音效和影视后期制作，大幅降低创作门槛，未来考虑推出在线服务版本。

　　小米 AI 实验室今日正式开源了可控视频音效生成模型 ControlFoley。该模型能够根据视频画面内容自动生成高度匹配的环境音效和背景音乐，并且支持用户通过文本指令精准控制音效的风格、强度和节奏。这是视频创作领域的一项重要 AI 工具突破。

　　ControlFoley 基于 Diffusion 架构构建，在超过 100 万条视频-音频配对数据上完成训练。模型可以识别视频中的动作、场景和物体，并生成相应的音效，如脚步声、风声、碰撞声等。

　　▎ 核心能力与特点

　　ControlFoley 的核心创新在于「可控性」：用户可通过文本提示精确指定想要的音效类型，如「轻柔的雨声」或「紧张的鼓点」，模型会据此调整输出。支持单视频和多视频批量处理，单条视频音效生成仅需 3-5 秒。

　　技术层面，模型支持 48kHz 采样率输出，音频质量接近专业制作水平。开源仓库包含预训练模型、推理代码和详细文档，社区开发者可直接使用。

　　▎ 应用场景

　　ControlFoley 的主要应用场景包括短视频内容创作、游戏音效生成、影视后期制作辅助等。对于个人创作者而言，它可以大幅降低视频音效制作的门槛。小米表示，后续将考虑推出面向消费者的在线服务版本。

关注我们