半岛bandao体育(中国)官方网站

谷歌发布全能乐谱AI:听一次歌曲,就能获得钢琴和小提琴的完整乐谱。本文经AI科技媒体量子位(公众号ID:QbitAI)授权转载,转载请注明出处。

日期:2024-06-27 21:04 / 作者:zoc7RcITctunhMtq7EzA
听完一次曲子,就能理解乐谱,还能立刻进行演奏,并且精通各种乐器,钢琴、小提琴、吉他等都能轻松驾驭。

不是一位人类音乐大师,而是由谷歌推出的“多任务多音轨”音乐转音符模型MT3。首先要解释一下什么是多任务多音轨。一首曲子通常由多种乐器合奏而成,每个乐器都有自己的音轨。执行多任务就是同时还原出不同音轨的乐谱。

Google已经将这篇论文提交给了ICLR 2022。音乐的多音轨还原相比于自动语音识别(ASR),自动音乐转录(AMT)的难度更大。因为AMT不仅需要同时转录多个乐器,还要保留精细的音高和时间信息。这个多音轨的自动音乐转录数据集还具有“低资源”的特点。目前的开源音乐转录数据集通常只含有一百到数百小时的音频内容,与语音数据集的成千上万小时相比,这可以说是相对较少的。过去,音乐转录主要关注于为个别任务设计的特定架构,以满足不同乐器的需求。作者接受了低资源自然语言处理任务迁移学习的启示,并验证了通用Transformer模型在多任务学习上的可行性。结果表明,这种模型可以显著提高低资源乐器识别任务的性能。作者采用了单一且普遍适用的Transformer架构T5,使用的是T5“小”型模型,其中含有大约6000万个参数。该模型在编码器和解码器中都采用了一系列标准的Transformer自注意力“块”。为了生成输出标记序列,该模型采用了贪婪自回归解码的方法:先输入一个输入序列,然后预测出下一个最可能出现的输出标记,将其添加到序列中,并反复进行这个过程直到结束。MT3的输入采用梅尔频谱图。为了输出,作者构建了一个受MIDI规范启发的token词汇,这个词汇被称为“类MIDI”。使用开源软件FluidSynth将

所产生的乐谱转化为音频。除此之外,还需要解决不同音乐数据集的不平衡和架构不同的问题。通用输出token是由

作者定义的,它允许模型在多个数据集的混合上进行训练。就像多语言翻译模型可以同时训练几种语言一样。这种方法不仅简化了模型设计和训练,而且增加了模型可以使用的训练数据的数量和多样性。在所有的指标和数据集上,MT3都表现更优秀,优于基准模型。在训练过程中混合不同数据集,相较于单独使用一个数据集训练,可以显著提升性能,尤其是对于GuitarSet、MusicNet和URMP等“低资源”数据集。最近,谷歌团队发布了MT3的源代码,并在Hugging Face平台上公布了试玩DemoBOB半岛APP。由于音频转换需要GPU资源,建议大家在Hugging Face上,通过在Colab上运行Jupyter Notebook来完成。【x】【n】【x】论文链接:【n】https://arxiv.org/abs/2111.03017【x】【n】【x】源代码链接:【n】https://github.com/magenta/mt3【x】【n】【x】演示地址:【n】https://huggingface.co/spaces/akhaliq/MT3【x】【n】【x】【x】【x】【n】【x】【p】【x】【n】【n】【n】【x】【p】【x】谷歌推出全能扒谱AI:只要听一遍歌曲,钢琴小提琴的乐谱全有了

BOB半岛新版

BOB半岛平台

谷歌推出全能扒谱AI:只要听一遍歌曲,钢琴小提琴的乐谱全有了

谷歌发布全能乐谱AI:听一次歌曲,就能获得钢琴和小提琴的完整乐谱。本文经AI科技媒体量子位(公众号ID:QbitAI)授权转载,转载请注明出处。

谷歌推出全能扒谱AI:只要听一遍歌曲,钢琴小提琴的乐谱全有了

谷歌推出全能扒谱AI:只要听一遍歌曲,钢琴小提琴的乐谱全有了

谷歌推出全能扒谱AI:只要听一遍歌曲,钢琴小提琴的乐谱全有了


BOB半岛官方 BOB半岛下载 BOB半岛平台