25 MB,无需GPU, 开源,手机可以跑的TTS 语音合成模型:Kitten TTS

你有没有想过,AI 语音合成不再依赖云端,也不需要超级计算资源

甚至可以在树莓派、旧笔记本、智能手机上本地运行?

一款仅25 MB、参数仅1500万的开源文本转语音模型做到了,他就是:Kitten TTS

核心亮点 — 为什么它如此独特?

在动辄 GB 级别的 AI 模型时代,「kitten-tts-nano-0.1」像一股清流。它的核心优势用三个词就能概括:小、快、灵

超轻体量

50MB 的大小,相当于两首无损音乐,普通手机就能一键下载,嵌入式设备也能轻松容纳,彻底告别 “模型下载一小时,运行卡顿半分钟” 的尴尬。

极速响应

无需高端 GPU 加持,即便是入门级 CPU 也能实现毫秒级语音合成,实时交互场景下(列如智能助手、语音通知)几乎感受不到延迟。

自然听感

别看体积小,它生成的语音清晰流畅,语调自然不机械,提供多达 8 种“优质生动”的语音选项(男女声各四),语调丰富,适合讲故事、旁白、助读等多种应用场景

快速上手指南

使用超级简单,几行代码就能让你的设备开口“说话”,无需复杂部署

pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl

下面是简单示例

from kittentts import KittenTTS
import soundfile as sf

tts = KittenTTS("KittenML/kitten-tts-nano-0.1")
audio = tts.generate("你好,AI变革指南期待你关注。")
sf.write("output.wav", audio, 24000)

模型地址:

https://huggingface.co/KittenML/kitten-tts-nano-0.1

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 共10条

请登录后发表评论