“约X”的软件居然搞了一个AI模型!SoulX-Podcast 项目介绍

“约X”的软件居然搞了一个AI模型!SoulX-Podcast 项目介绍

SoulX-Podcast 是由 Soul AI Lab(Soul AI 团队)开发的开源推理代码库,专用于从文本生成高保真度的播客式语音。它是项目“SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity”的官方推理代码。该项目的核心目的是实现播客风格的多轮、多说话人对话式语音生成,同时在传统单人独白文本到语音(TTS)任务中表现出色。它通过整合副语言控制(如笑声、叹息)和支持多种语言及方言的个性化语音生成,解决了多轮口语对话中自然度不足的问题。 项目代码托管在 GitHub 上(
https://github.com/Soul-AILab/SoulX-Podcast),采用 Apache 2.0 许可协议,适用于学术研究、教育和合法应用。

关键特性

SoulX-Podcast 在语音生成领域脱颖而出,主要特性包括:
长形式、多轮、多说话人对话式语音生成:擅长生成高质量、自然的对话式语音,支持多轮、多说话人场景,适用于播客制作。
跨方言零样本语音克隆:支持不同中文方言间的零样本语音克隆,即使提示音频为普通话,也能生成高质量的个性化方言语音。
副语言控制:集成多种副语言事件,如笑声(laughter)和叹息(sighs),提升合成结果的真实感和情感表达。
多语言和方言支持:覆盖普通话(Mandarin)和英语(English),以及多种中文方言,包括四川话(Sichuanese)、河南话(Henanese)和粤语(Cantonese)。

这些特性使它特别适合创建逼真的长形式播客内容。

技术架构和组件

README 中未详细阐述具体的模型架构,但提到了两个主要模型变体:
基础模型(SoulX-Podcast-1.7B):用于通用推理,包括对话生成和独白 TTS。
方言模型(
SoulX-Podcast-1.7B-dialect)
:专为方言生成优化,支持跨方言克隆。

这些模型参数规模均为 1.7B(17 亿参数),可从 Hugging Face 下载。代码库包含推理脚本示例,如对话生成脚本,但未公开训练细节。项目引用了技术报告(arXiv 预印本),其中可能包含更多架构信息。

训练数据和模型细节

README 未提供具体的训练数据细节,但项目强调了其在多轮对话和方言多样性上的训练优化。模型从 Hugging Face 仓库下载,支持零样本适应。技术报告(
https://arxiv.org/pdf/2510.23541)中提到,该系统基于大规模数据集训练,旨在实现方言和副语言的多样性。未来更新可能包括更多训练细节。

安装和设置说明

项目针对 Linux 系统提供安装指南,过程简单明了。以下是详细步骤:

  1. 克隆仓库并安装依赖
  • git clone git@github.com:Soul-AILab/SoulX-Podcast.git
    cd SoulX-Podcast
  • 创建并激活 Conda 环境:
  • conda create -n soulxpodcast -y python=3.11
    conda activate soulxpodcast
    pip install -r requirements.txt
  • 对于中国大陆用户,使用阿里云镜像加速:
  • pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ –trusted-host=mirrors.aliyun.com
  1. 下载模型: 模型可通过 Hugging Face CLI、Python 或 Git LFS 下载(推荐 CLI 以支持断点续传)。
  • 安装 Hugging Face Hub:pip install -U huggingface_hub使用 CLI 下载:# 基础模型
    huggingface-cli download –resume-download Soul-AILab/SoulX-Podcast-1.7B –local-dir pretrained_models/SoulX-Podcast-1.7B
    # 方言模型
    huggingface-cli download –resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect –local-dir pretrained_models/SoulX-Podcast-1.7B-dialect使用 Python 下载:from huggingface_hub import snapshot_download
    # 基础模型
    snapshot_download(“Soul-AILab/SoulX-Podcast-1.7B”, local_dir=”pretrained_models/SoulX-Podcast-1.7B”)
    # 方言模型
    snapshot_download(“Soul-AILab/SoulX-Podcast-1.7B-dialect”, local_dir=”pretrained_models/SoulX-Podcast-1.7B-dialect”)使用 Git LFS(需先安装 git-lfs:https://git-lfs.com):mkdir -p pretrained_models
    git lfs install
    # 基础模型
    git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B pretrained_models/SoulX-Podcast-1.7B
    # 方言模型
    git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect pretrained_models/SoulX-Podcast-1.7B-dialect

安装完成后,即可运行推理脚本。

使用示例

项目提供简单的使用脚本,主要通过 Bash 脚本演示: – 方言推理示例: bash example/infer_dialogue.sh 这将生成多轮对话播客,支持方言和副语言。

演示示例包括: – 零样本播客生成:如普通话播客(podcast-mandarin.mp4)。 – 跨方言零样本播客生成:如河南话(Henan.mp4)、四川话(Sichuan.mp4)和粤语(Yue.mp4),提示音频均为普通话。

更多互动演示可在项目 Demo 页面查看:
https://soul-ailab.github.io/soulx-podcast/。

当前 TODO 列表包括:添加独白 TTS 示例脚本、开发 WebUI、在 Hugging Face Spaces 上部署在线 Demo、Docker 容器化支持 vLLM,以及添加流式推理支持。这些功能正在开发中。

性能指标或基准

README 中未列出具体量化指标,但提到该模型在独白 TTS 任务中表现出色,并在对话式语音生成上领先。附带了一个性能雷达图(
assets/performance_radar.png),展示其在自然度、多样性和保真度等方面的优势。技术报告中可能有更多基准比较,如与现有 TTS 模型的 MOS(Mean Opinion Score)评分。

支持的语言和能力

  • 语言:普通话、英语。
  • 方言:四川话、河南话、粤语。
  • 能力:多轮多说话人对话生成、零样本语音克隆(跨方言)、副语言事件整合(如笑声、叹息)、从文本生成长形式播客。

这些支持使它适用于跨文化、多语种的语音应用。

限制

项目未明确列出技术限制,但强调使用须遵守道德和法律规范: – 仅限学术研究、教育和合法用途。 – 禁止未经授权的语音克隆、冒充、欺诈、诈骗、深度伪造或非法活动。 – 开发者不对滥用负责,用户需遵守当地法律法规和伦理标准。

此外,由于模型规模较大,推理可能需要高性能 GPU(如 A100),且当前缺乏流式支持。

相关资源链接

  • Demo 页面:https://soul-ailab.github.io/soulx-podcast/(包含音频/视频示例)。
  • Hugging Face 模型集合:https://huggingface.co/collections/Soul-AILab/soulx-podcast。
  • 技术报告:arXiv 预印本(https://arxiv.org/abs/2510.23541),包含 BibTeX 引用格式。
  • 许可证:Apache 2.0(详见 https://github.com/Soul-AILab/SoulX-Podcast/blob/main/LICENSE)。

总体而言,SoulX-Podcast 是语音 AI 领域的一个创新项目,推动了多模态对话生成的边界。

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
郎昊辰的头像 - 宋马
评论 抢沙发

请登录后发表评论

    暂无评论内容