
SoulX-Podcast 是由 Soul AI Lab(Soul AI 团队)开发的开源推理代码库,专用于从文本生成高保真度的播客式语音。它是项目“SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity”的官方推理代码。该项目的核心目的是实现播客风格的多轮、多说话人对话式语音生成,同时在传统单人独白文本到语音(TTS)任务中表现出色。它通过整合副语言控制(如笑声、叹息)和支持多种语言及方言的个性化语音生成,解决了多轮口语对话中自然度不足的问题。 项目代码托管在 GitHub 上(
https://github.com/Soul-AILab/SoulX-Podcast),采用 Apache 2.0 许可协议,适用于学术研究、教育和合法应用。
关键特性
SoulX-Podcast 在语音生成领域脱颖而出,主要特性包括:
– 长形式、多轮、多说话人对话式语音生成:擅长生成高质量、自然的对话式语音,支持多轮、多说话人场景,适用于播客制作。
– 跨方言零样本语音克隆:支持不同中文方言间的零样本语音克隆,即使提示音频为普通话,也能生成高质量的个性化方言语音。
– 副语言控制:集成多种副语言事件,如笑声(laughter)和叹息(sighs),提升合成结果的真实感和情感表达。
– 多语言和方言支持:覆盖普通话(Mandarin)和英语(English),以及多种中文方言,包括四川话(Sichuanese)、河南话(Henanese)和粤语(Cantonese)。
这些特性使它特别适合创建逼真的长形式播客内容。
技术架构和组件
README 中未详细阐述具体的模型架构,但提到了两个主要模型变体:
– 基础模型(SoulX-Podcast-1.7B):用于通用推理,包括对话生成和独白 TTS。
– 方言模型(
SoulX-Podcast-1.7B-dialect):专为方言生成优化,支持跨方言克隆。
这些模型参数规模均为 1.7B(17 亿参数),可从 Hugging Face 下载。代码库包含推理脚本示例,如对话生成脚本,但未公开训练细节。项目引用了技术报告(arXiv 预印本),其中可能包含更多架构信息。
训练数据和模型细节
README 未提供具体的训练数据细节,但项目强调了其在多轮对话和方言多样性上的训练优化。模型从 Hugging Face 仓库下载,支持零样本适应。技术报告(
https://arxiv.org/pdf/2510.23541)中提到,该系统基于大规模数据集训练,旨在实现方言和副语言的多样性。未来更新可能包括更多训练细节。
安装和设置说明
项目针对 Linux 系统提供安装指南,过程简单明了。以下是详细步骤:
- 克隆仓库并安装依赖:
- git clone git@github.com:Soul-AILab/SoulX-Podcast.git
cd SoulX-Podcast - 创建并激活 Conda 环境:
- conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip install -r requirements.txt - 对于中国大陆用户,使用阿里云镜像加速:
- pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ –trusted-host=mirrors.aliyun.com
- 下载模型: 模型可通过 Hugging Face CLI、Python 或 Git LFS 下载(推荐 CLI 以支持断点续传)。
- 安装 Hugging Face Hub:pip install -U huggingface_hub使用 CLI 下载:# 基础模型
huggingface-cli download –resume-download Soul-AILab/SoulX-Podcast-1.7B –local-dir pretrained_models/SoulX-Podcast-1.7B
# 方言模型
huggingface-cli download –resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect –local-dir pretrained_models/SoulX-Podcast-1.7B-dialect使用 Python 下载:from huggingface_hub import snapshot_download
# 基础模型
snapshot_download(“Soul-AILab/SoulX-Podcast-1.7B”, local_dir=”pretrained_models/SoulX-Podcast-1.7B”)
# 方言模型
snapshot_download(“Soul-AILab/SoulX-Podcast-1.7B-dialect”, local_dir=”pretrained_models/SoulX-Podcast-1.7B-dialect”)使用 Git LFS(需先安装 git-lfs:https://git-lfs.com):mkdir -p pretrained_models
git lfs install
# 基础模型
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B pretrained_models/SoulX-Podcast-1.7B
# 方言模型
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect pretrained_models/SoulX-Podcast-1.7B-dialect
安装完成后,即可运行推理脚本。
使用示例
项目提供简单的使用脚本,主要通过 Bash 脚本演示: – 方言推理示例: bash example/infer_dialogue.sh 这将生成多轮对话播客,支持方言和副语言。
演示示例包括: – 零样本播客生成:如普通话播客(podcast-mandarin.mp4)。 – 跨方言零样本播客生成:如河南话(Henan.mp4)、四川话(Sichuan.mp4)和粤语(Yue.mp4),提示音频均为普通话。
更多互动演示可在项目 Demo 页面查看:
https://soul-ailab.github.io/soulx-podcast/。
当前 TODO 列表包括:添加独白 TTS 示例脚本、开发 WebUI、在 Hugging Face Spaces 上部署在线 Demo、Docker 容器化支持 vLLM,以及添加流式推理支持。这些功能正在开发中。
性能指标或基准
README 中未列出具体量化指标,但提到该模型在独白 TTS 任务中表现出色,并在对话式语音生成上领先。附带了一个性能雷达图(
assets/performance_radar.png),展示其在自然度、多样性和保真度等方面的优势。技术报告中可能有更多基准比较,如与现有 TTS 模型的 MOS(Mean Opinion Score)评分。
支持的语言和能力
- 语言:普通话、英语。
- 方言:四川话、河南话、粤语。
- 能力:多轮多说话人对话生成、零样本语音克隆(跨方言)、副语言事件整合(如笑声、叹息)、从文本生成长形式播客。
这些支持使它适用于跨文化、多语种的语音应用。
限制
项目未明确列出技术限制,但强调使用须遵守道德和法律规范: – 仅限学术研究、教育和合法用途。 – 禁止未经授权的语音克隆、冒充、欺诈、诈骗、深度伪造或非法活动。 – 开发者不对滥用负责,用户需遵守当地法律法规和伦理标准。
此外,由于模型规模较大,推理可能需要高性能 GPU(如 A100),且当前缺乏流式支持。
相关资源链接
- Demo 页面:https://soul-ailab.github.io/soulx-podcast/(包含音频/视频示例)。
- Hugging Face 模型集合:https://huggingface.co/collections/Soul-AILab/soulx-podcast。
- 技术报告:arXiv 预印本(https://arxiv.org/abs/2510.23541),包含 BibTeX 引用格式。
- 许可证:Apache 2.0(详见 https://github.com/Soul-AILab/SoulX-Podcast/blob/main/LICENSE)。
总体而言,SoulX-Podcast 是语音 AI 领域的一个创新项目,推动了多模态对话生成的边界。
















暂无评论内容