↑

Voicebox

开源声音克隆工具

Voicebox声音克隆

4访问 2 次更新于 2026-04-13 11:04

声明：文档由AI生成，仅作参考，最终功能和计费标准以官方为准。

一、产品概述

Voicebox 是由个人开发者（jamiepine）研发的本地优先、开源免费的语音克隆工作室软件，提供类数字音频工作站（DAW）的专业级语音合成与编辑功能。

本地运行与隐私保护：所有模型、语音数据及处理流程均在用户本地设备完成，无云端依赖，保障数据隐私。
高保真语音克隆：基于Qwen3-TTS等主流TTS引擎，仅需3秒音频样本即可实现近乎完美的语音克隆，支持多样本合并优化。
多引擎架构：内置支持Qwen3-TTS、LuxTTS、Chatterbox系列等5种TTS模型，覆盖23种语言，用户可按需选择。
专业音频编辑：提供多轨时间轴编辑器（Stories Editor），支持音频剪辑、分割、混音、批量生成与智能缓存。
完整音效处理：内置音高变换、混响、延迟、压缩等音效管线，支持实时预览与预设保存。
跨平台兼容：支持macOS（Apple Silicon/Intel）、Windows、Linux系统，适配Metal、CUDA、ROCm等多种GPU加速。
API优先设计：提供完整REST API，支持将语音合成能力集成至第三方应用。
高效性能：采用Tauri（Rust）构建，Apple Silicon设备通过MLX后端实现Metal原生加速，推理速度提升4-5倍。
超长文本生成：单次支持最高50,000字符文本生成，自动分句、分块处理并无缝交叉淡入淡出。
语音转录：集成Whisper模型，支持语音样本自动转文本与内容提取。

Voicebox为完全免费开源软件，采用MIT许可证，无任何隐藏费用、订阅套餐或付费功能模块，所有核心能力均向用户免费开放。

A：是。Voicebox为开源免费软件，无任何订阅、付费功能或隐藏费用，全部功能可免费使用。

A：支持macOS（Apple Silicon与Intel芯片）、Windows、Linux全平台。

A：最低仅需3秒有效音频样本即可完成克隆，支持上传文件、麦克风录制、系统音频捕获三种采集方式。

A：支持。软件采用MIT开源许可证，允许个人及商业项目免费使用。

A：Apple Silicon设备性能最优；普通CPU可运行但速度较慢；支持NVIDIA CUDA、AMD ROCm、Intel Arc等GPU加速。

A：当前支持英语、中文等23种语言，依托多TTS引擎实现跨语言合成。

A：无严格时长限制，单次最高支持50,000字符文本，自动分块生成并无缝拼接。