使用ACE-Step v1-3.5B开源模型从文本提示、标签和歌词创建完整的AI生成歌曲 — 无需云服务,无需API,仅需您的GPU。
这是由ACE Studio和StepFun开发的开源音乐生成模型。
在对数据隐私和云服务依赖性日益增长的担忧时代,ACE-Step将强大的文本转音乐生成完全离线,使其成为AI音乐领域最创作者友好的工具之一。
什么是ACE-Step?
ACE-Step v1-3.5B是一个深度学习模型,旨在从自然语言提示生成完整的音乐音轨。
基于扩散框架构建,该模型结合了深度压缩自编码器(DCAE)和轻量级线性transformer。
这种组合使其能够生成丰富、多乐器的作品,在音乐连贯性和风格多样性方面表现出色。
与其他可能难以在几分钟音频中保持结构的模型不同,ACE-Step针对长篇音乐生成进行了优化。
它不仅仅创建循环或短小的动机 — 它可以生成具有进展感、流派忠实度和情感流动的4分钟音轨。
ACE的特别之处
大多数AI音乐生成器要么创建随机作品,要么需要大量提示才能生成可用的内容。
ACE采用了不同的方法:它允许您提供一个短音乐片段作为起点,然后无缝地将其扩展为完整的作品,同时保持原始的风格、情绪和乐器编排。
在Hugging Face上可用的ACE-Step-v1-3.5-3.5B模型特别令人印象深刻,因为它:
创建听起来专业的音乐,并与您的输入片段保持连贯性
在消费级硬件上高效运行(无需云处理)
以每步3秒的速度生成音乐
足够紧凑(3.5B参数),可以在大多数现代GPU上运行
独特的功能
使ACE-Step不仅仅是一个玩具的原因是其功能的广度:
文本转音乐生成:您可以用普通英语(或中文、日语、韩语)描述一首歌,ACE-Step会将其转换为音频。
多段作曲:通过提供分段提示来构建歌曲的intro、verse、chorus、bridge等部分。
时长控制:轻松生成1到4分钟的音轨。
可选歌词:在提示中添加歌词,以流行歌唱风格生成人声。
多语言和多风格支持:在200K+首歌曲上训练,覆盖全球风格和语言,尽管在流行音乐上表现最佳。
声音克隆:使用ACE AI Singer克隆人声音轨(后处理步骤)。
风格转换与重混:使用嵌入或提示引导来重现或重混现有风格。
所有这些都无需互联网访问或外部API。下载后,模型可在您的机器上本地运行。
本地运行ACE:逐步指南
让我们在您的机器上设置ACE,一键生成音乐。
安装步骤
克隆GitHub仓库:
git clone https://github.com/Audio-AI-Music/ACE-Step.git
cd ACE-Step
安装依赖:
pip install -r requirements.txt
运行应用 启动Web UI:
python .app/app.py
在浏览器中打开 运行后,访问:
http://localhost:7860
下面是ACE的用户界面
ACE-Step网页界面为用户提供了极大的创意灵活性,不仅仅是输入提示那么简单。您可以使用不同的关键输入字段深度个性化音乐生成:
标签:描述流派、风格、场景和能量
在标签部分,您可以使用诸如流派、乐器、节奏和氛围等关键词引导音乐生成引擎。这些标签帮助模型生成符合特定情绪或场景的音乐。
示例标签:
放克,流行,灵魂,摇滚,旋律,吉他,鼓,贝斯,键盘,打击乐,105 BPM,充满能量,欢快,律动,生动,动态
提示词:使用逗号分隔不同标签。模型支持组合,如”lo-fi,放松,钢琴,黑胶噪音”或”管弦乐,史诗,弦乐,电影配乐”。
歌词:添加自定义人声内容
想要您的音轨包含人声?只需将自定义歌词粘贴到歌词框中。ACE-Step支持使用[verse]
、[chorus]
和[bridge]
等标签的结构化歌词格式。
示例歌词:
[verse]
霓虹灯闪烁明亮
城市在深夜嗡嗡作响
节奏脉动穿过混凝土血管
迷失在回响的歌谣中
注意:对于纯器乐音轨,使用
[inst]
标签或留空歌词字段。
这些输入允许您尝试结构化歌曲和多段作曲,所有内容都从头开始由AI生成。
尝试并生成音乐:
https://huggingface.co/spaces/ACE-Step/ACE-Step
硬件要求
虽然从技术上讲您可以在消费级硬件上运行ACE-Step,但要流畅生成较长音轨,您至少需要:
GPU:NVIDIA RTX 3090或更高(16GB+显存)
内存:推荐32GB
磁盘空间:约10GB(用于模型权重和生成的音频)
局限性和注意事项
尽管ACE-Step功能强大,但并非没有注意事项。运行模型确实需要相当强大的GPU — 理想情况下至少16GB显存。
在配置较低的机器上,生成可能仍然有效,但需要更长时间或可能遇到内存问题。
此外,尽管模型支持广泛的音乐流派,但某些小众风格(开发者注意到的如中国说唱)可能无法自然生成。
而且,尽管声音合成功能是可用的,但可能缺乏真实人声的情感细微差别,尤其是在富有表现力的音乐流派中。
尽管如此,ACE-Step正在积极开发中,其开源性质意味着对于技术能力强的用户来说,改进和微调是可以实现的。
结语
ACE-Step代表了音乐生成可访问性的重大飞跃。仅通过一键就能在本地运行3.5B参数模型并生成专业质量的音乐,使得那些原本仅限于拥有广泛音乐训练或昂贵录音室设置的创意可能性得到了民主化。
参考资料
https://github.com/ace-step/ACE-Step
https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
暂无评论内容