MusicGen

简单可控的音乐生成

MusicGen 是由 Meta（前身为 Facebook）AI 研究实验室开发的一种音乐生成模型。这个模型可以根据文本描述或已有的旋律生成高质量的音乐。MusicGen 的特点是它使用了一种名为 EnCodec 的编码器，将音频数据分解为更小的单元进行并行处理，从而提高了运算效率和生成速度。

MusicGen 的生成方式是生成 Encodec tokens 然后再解码为音频。它采用了 codebook 排布策略，使得生成 tokens 只需单步。此外，MusicGen 还支持文本与旋律的组合输入，例如用户可以提出生成“一首轻快的曲目”并同时要求“将它与贝多芬的《欢乐颂》结合起来”。

MusicGen 在音乐与文本提示的匹配度以及作曲的可信度等指标上表现良好，略高于谷歌的 MusicLM 水平。Meta 已经允许该模型的商业使用，并在 Huggingface 上发布了一个供演示用的网页应用。

MusicGen 的开源代码可以在 GitHub 上找到，它基于 MIT 许可证，允许商业使用。但是，预训练结果的开源协议是 CC-BY-NC 4.0，这意味着它们不能用于商业目的。这个模型的发布引起了音乐和人工智能社区的广泛关注，为音乐创作和人工智能的交叉研究提供了新的工具和可能性。

0/200

评论(0)