logo
MusicGen
00

MusicGen

简单可控的音乐生成

MusicGen 是由 Meta(前身为 Facebook)AI 研究实验室开发的一种音乐生成模型。这个模型可以根据文本描述或已有的旋律生成高质量的音乐。MusicGen 的特点是它使用了一种名为 EnCodec 的编码器,将音频数据分解为更小的单元进行并行处理,从而提高了运算效率和生成速度。

MusicGen 的生成方式是生成 Encodec tokens 然后再解码为音频。它采用了 codebook 排布策略,使得生成 tokens 只需单步。此外,MusicGen 还支持文本与旋律的组合输入,例如用户可以提出生成“一首轻快的曲目”并同时要求“将它与贝多芬的《欢乐颂》结合起来”。

MusicGen 在音乐与文本提示的匹配度以及作曲的可信度等指标上表现良好,略高于谷歌的 MusicLM 水平。Meta 已经允许该模型的商业使用,并在 Huggingface 上发布了一个供演示用的网页应用。

MusicGen 的开源代码可以在 GitHub 上找到,它基于 MIT 许可证,允许商业使用。但是,预训练结果的开源协议是 CC-BY-NC 4.0,这意味着它们不能用于商业目的。这个模型的发布引起了音乐和人工智能社区的广泛关注,为音乐创作和人工智能的交叉研究提供了新的工具和可能性。

评论(0)

0/200

暂无评论