谷歌发布全能乐谱AI：听一次歌曲，就能获得钢琴和小提琴的完整乐谱。本文经AI科技媒体量子位（公众号ID:QbitAI）授权转载，转载请注明出处。

日期：2024-06-27 21:04 / 作者：zoc7RcITctunhMtq7EzA

听完一次曲子，就能理解乐谱，还能立刻进行演奏，并且精通各种乐器，钢琴、小提琴、吉他等都能轻松驾驭。

不是一位人类音乐大师，而是由谷歌推出的“多任务多音轨”音乐转音符模型MT3。首先要解释一下什么是多任务多音轨。一首曲子通常由多种乐器合奏而成，每个乐器都有自己的音轨。执行多任务就是同时还原出不同音轨的乐谱。

Google已经将这篇论文提交给了ICLR 2022。音乐的多音轨还原相比于自动语音识别（ASR），自动音乐转录（AMT）的难度更大。因为AMT不仅需要同时转录多个乐器，还要保留精细的音高和时间信息。这个多音轨的自动音乐转录数据集还具有“低资源”的特点。目前的开源音乐转录数据集通常只含有一百到数百小时的音频内容，与语音数据集的成千上万小时相比，这可以说是相对较少的。过去，音乐转录主要关注于为个别任务设计的特定架构，以满足不同乐器的需求。作者接受了低资源自然语言处理任务迁移学习的启示，并验证了通用Transformer模型在多任务学习上的可行性。结果表明，这种模型可以显著提高低资源乐器识别任务的性能。作者采用了单一且普遍适用的Transformer架构T5，使用的是T5“小”型模型，其中含有大约6000万个参数。该模型在编码器和解码器中都采用了一系列标准的Transformer自注意力“块”。为了生成输出标记序列，该模型采用了贪婪自回归解码的方法：先输入一个输入序列，然后预测出下一个最可能出现的输出标记，将其添加到序列中，并反复进行这个过程直到结束。MT3的输入采用梅尔频谱图。为了输出，作者构建了一个受MIDI规范启发的token词汇，这个词汇被称为“类MIDI”。使用开源软件FluidSynth将

所产生的乐谱转化为音频。除此之外，还需要解决不同音乐数据集的不平衡和架构不同的问题。通用输出token是由

作者定义的，它允许模型在多个数据集的混合上进行训练。就像多语言翻译模型可以同时训练几种语言一样。这种方法不仅简化了模型设计和训练，而且增加了模型可以使用的训练数据的数量和多样性。在所有的指标和数据集上，MT3都表现更优秀，优于基准模型。在训练过程中混合不同数据集，相较于单独使用一个数据集训练，可以显著提升性能，尤其是对于GuitarSet、MusicNet和URMP等“低资源”数据集。最近，谷歌团队发布了MT3的源代码，并在Hugging Face平台上公布了试玩DemoBOB半岛APP。由于音频转换需要GPU资源，建议大家在Hugging Face上，通过在Colab上运行Jupyter Notebook来完成。【x】【n】【x】论文链接：【n】https://arxiv.org/abs/2111.03017【x】【n】【x】源代码链接：【n】https://github.com/magenta/mt3【x】【n】【x】演示地址：【n】https://huggingface.co/spaces/akhaliq/MT3【x】【n】【x】【x】【x】【n】【x】【p】【x】【n】【n】【n】【x】【p】【x】谷歌推出全能扒谱AI：只要听一遍歌曲，钢琴小提琴的乐谱全有了

BOB半岛新版

BOB半岛平台

谷歌发布全能乐谱AI：听一次歌曲，就能获得钢琴和小提琴的完整乐谱。本文经AI科技媒体量子位（公众号ID:QbitAI）授权转载，转载请注明出处。

BOB半岛官方 BOB半岛下载 BOB半岛平台