“约X”的软件居然搞了一个AI模型！SoulX-Podcast 项目介绍

SoulX-Podcast 是由 Soul AI Lab（Soul AI 团队）开发的开源推理代码库，专用于从文本生成高保真度的播客式语音。它是项目“SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity”的官方推理代码。该项目的核心目的是实现播客风格的多轮、多说话人对话式语音生成，同时在传统单人独白文本到语音（TTS）任务中表现出色。它通过整合副语言控制（如笑声、叹息）和支持多种语言及方言的个性化语音生成，解决了多轮口语对话中自然度不足的问题。项目代码托管在 GitHub 上（
https://github.com/Soul-AILab/SoulX-Podcast），采用 Apache 2.0 许可协议，适用于学术研究、教育和合法应用。

关键特性

SoulX-Podcast 在语音生成领域脱颖而出，主要特性包括：
– 长形式、多轮、多说话人对话式语音生成：擅长生成高质量、自然的对话式语音，支持多轮、多说话人场景，适用于播客制作。
– 跨方言零样本语音克隆：支持不同中文方言间的零样本语音克隆，即使提示音频为普通话，也能生成高质量的个性化方言语音。
– 副语言控制：集成多种副语言事件，如笑声（laughter）和叹息（sighs），提升合成结果的真实感和情感表达。
– 多语言和方言支持：覆盖普通话（Mandarin）和英语（English），以及多种中文方言，包括四川话（Sichuanese）、河南话（Henanese）和粤语（Cantonese）。

这些特性使它特别适合创建逼真的长形式播客内容。

技术架构和组件

README 中未详细阐述具体的模型架构，但提到了两个主要模型变体：
– 基础模型（SoulX-Podcast-1.7B）：用于通用推理，包括对话生成和独白 TTS。
– 方言模型（
SoulX-Podcast-1.7B-dialect）：专为方言生成优化，支持跨方言克隆。

这些模型参数规模均为 1.7B（17 亿参数），可从 Hugging Face 下载。代码库包含推理脚本示例，如对话生成脚本，但未公开训练细节。项目引用了技术报告（arXiv 预印本），其中可能包含更多架构信息。

训练数据和模型细节

README 未提供具体的训练数据细节，但项目强调了其在多轮对话和方言多样性上的训练优化。模型从 Hugging Face 仓库下载，支持零样本适应。技术报告（
https://arxiv.org/pdf/2510.23541）中提到，该系统基于大规模数据集训练，旨在实现方言和副语言的多样性。未来更新可能包括更多训练细节。

安装和设置说明

项目针对 Linux 系统提供安装指南，过程简单明了。以下是详细步骤：

克隆仓库并安装依赖：

git clone git@github.com:Soul-AILab/SoulX-Podcast.git
cd SoulX-Podcast
创建并激活 Conda 环境：
conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip install -r requirements.txt
对于中国大陆用户，使用阿里云镜像加速：
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ –trusted-host=mirrors.aliyun.com

下载模型：模型可通过 Hugging Face CLI、Python 或 Git LFS 下载（推荐 CLI 以支持断点续传）。

安装 Hugging Face Hub：pip install -U huggingface_hub使用 CLI 下载：# 基础模型
huggingface-cli download –resume-download Soul-AILab/SoulX-Podcast-1.7B –local-dir pretrained_models/SoulX-Podcast-1.7B
# 方言模型
huggingface-cli download –resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect –local-dir pretrained_models/SoulX-Podcast-1.7B-dialect使用 Python 下载：from huggingface_hub import snapshot_download
# 基础模型
snapshot_download(“Soul-AILab/SoulX-Podcast-1.7B”, local_dir=”pretrained_models/SoulX-Podcast-1.7B”)
# 方言模型
snapshot_download(“Soul-AILab/SoulX-Podcast-1.7B-dialect”, local_dir=”pretrained_models/SoulX-Podcast-1.7B-dialect”)使用 Git LFS（需先安装 git-lfs：https://git-lfs.com）：mkdir -p pretrained_models
git lfs install
# 基础模型
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B pretrained_models/SoulX-Podcast-1.7B
# 方言模型
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect pretrained_models/SoulX-Podcast-1.7B-dialect

安装完成后，即可运行推理脚本。

使用示例

项目提供简单的使用脚本，主要通过 Bash 脚本演示： – 方言推理示例： bash example/infer_dialogue.sh 这将生成多轮对话播客，支持方言和副语言。

演示示例包括： – 零样本播客生成：如普通话播客（podcast-mandarin.mp4）。 – 跨方言零样本播客生成：如河南话（Henan.mp4）、四川话（Sichuan.mp4）和粤语（Yue.mp4），提示音频均为普通话。

更多互动演示可在项目 Demo 页面查看：
https://soul-ailab.github.io/soulx-podcast/。

当前 TODO 列表包括：添加独白 TTS 示例脚本、开发 WebUI、在 Hugging Face Spaces 上部署在线 Demo、Docker 容器化支持 vLLM，以及添加流式推理支持。这些功能正在开发中。

性能指标或基准

README 中未列出具体量化指标，但提到该模型在独白 TTS 任务中表现出色，并在对话式语音生成上领先。附带了一个性能雷达图（
assets/performance_radar.png），展示其在自然度、多样性和保真度等方面的优势。技术报告中可能有更多基准比较，如与现有 TTS 模型的 MOS（Mean Opinion Score）评分。