从歌词中生成音符序列可能听起来像是科幻小说的内容,但人工智能可能会把这变成普遍的现实。日前,在 Arxiv.org 上发表的一篇论文中,来自东京国立信息学研究所的研究人员描述了一种能够从已学习音节和音符关系产生“歌词调节”旋律的机器学习系统。
“来自歌词的旋律生成一直是人工智能和音乐领域的一个具有挑战性的研究问题,它能够学习和发现有趣的歌词和伴奏旋律之间的潜在关系。”该论文的共同作者写道,“随着现有歌词和旋律数据集的发展以及AI,歌词和旋律之间的音乐知识挖掘逐渐成为可能。”
正如研究人员解释的那样,音符有两个音乐属性:音高和持续时间。音高是声音的感知属性,其在频率相关音阶上通过高度或低度来组织音乐;而持续时间表示音调或音调被发声的时间长度。
研究人员的AI系统使用对齐数据与长短期记忆(LSTM)网络结。LSTM网络是一种能够学习长期依赖性的递归神经网络,经过训练,可以在音节和单词级别学习联合嵌入数学表示来捕捉歌词的突出结构,随着时间的推移就能学会在给出歌词的同时预测旋律,同时考虑到歌词和旋律之间的关系。
为了训练它,该团队编制了又12,197个MIDI文件组成的数据集,每个文件都配有歌词和旋律对齐。在将语料库分成训练、验证和测试并将它们嵌入模型之后,研究者进行了一系列测试以确定它预测的旋律与歌词、MIDI、音符持续时间和休息持续时间顺序对齐的程度。他们报告称,他们所用的人工智能系统不仅“在各个方面”都超越了基线模型,而且与人类音乐的分布非常接近。
研究人员写道:“音乐和人工智能中歌词的旋律生成仍然未得到很好的探索。利用深度学习技术制作旋律是一个非常有趣的研究领域,旨在了解和辅助人类的音乐创作活动。”
如果该研究未来能够有所进展,人工智能可能很快就会成为音乐家们的宝贵工具。今年7月,总部位于蒙特利尔的创业公司Landr筹集2600万美元用于开发分析音乐风格的产品,以创建定制的音频处理器,而今年早些时候,OpenAI和谷歌推出了利用音乐生成算法的在线创作工具。最近,索尼的研究人员研究了特定条件下的kick-drum轨道生成的机器学习模型。让AI从事作曲甚至更广泛的音乐工作,似乎很快就不属于天方夜谭。