现在看音乐家无声表演视频，AI 也能给出正确的结果

2020-08-06 15:42

导读：在2020年欧洲计算机视觉会议（ECCV2020）上，麻省理工学院（MIT）和沃森人工智能实验室的研究人员介绍了一种人工智能系统——FoleyMusic，它可以从音乐家演奏乐器的无声视频中产生“貌似合理”的音乐。研究人员说，它可以用于各种音乐演奏，并且，与现有的“某些”系统相比，它生成的音乐更加悦耳

在 2020 年欧洲计算机视觉会议（ECCV 2020）上，麻省理工学院（MIT）和沃森人工智能实验室的研究人员介绍了一种人工智能系统——Foley Music，它可以从音乐家演奏乐器的无声视频中产生 “貌似合理”的音乐。研究人员说，它可以用于各种音乐演奏，并且，与现有的 “某些”系统相比，它生成的音乐更加悦耳。

论文链接：

https://arxiv.org/pdf/2007.10984.pdf

研究者们坚信，一个可以从身体运动轨迹推断声音的人工智能模型可以作为一系列应用的基础，从自动给视频添加声音效果，到为虚拟现实创造沉浸式体验，不一而足。认知心理学的研究表明，人类早已拥有这种技能——即使是年幼的儿童，他们听到的内容也会受说话人的肢体行为影响。

为表示动作，Foley Music 会从视频帧中提取二维的关键坐标点来模拟身体和手部的动作，关键点包括身体（25 点）和手指（21 点）。对于音乐，系统采用乐器数字化接口（MIDI）的表征形式，对每个音符的时长和响度进行编码。给定了动作的关键点和音乐的 MIDI 事件，模型中的 “图形变换器”模块会拟合一个映射函数，将动作与音乐联系起来，捕捉人体动态和音乐变化的潜在联系。

模型可以用于制作手风琴、低音提琴、巴松管、大提琴、吉他、钢琴、大号、四弦琴和小提琴等的音乐片段。

系统不会将 MIDI 事件渲染成音乐，但研究人员指出，它们可以导入到标准合成器中。研究人员未来将考虑训练一个神经合成器来自动渲染音乐。

实验中，研究人员采用了三个数据集来训练 Foley Music：URMP，一个在录音棚录制的高质量多乐器视频语料库，每个录制的视频提供一个 MIDI 文件；AtinPiano，一个提供钢琴弹奏视频的 YouTube 频道，摄像角度是俯视手指和键盘；MUSIC，一个未经修剪的视频数据集，通过关键字搜索从 YouTube 下载。这些数据集包含 11 个类别共 1000 个音乐演奏视频。

研究人员让完成训练的 Foley Music 系统为 450 个视频生成了 MIDI 片段。然后，他们进行了一项听力测试，让来自亚马逊土耳其机器人（Amazon Mechanical Turk）的志愿者对其中的 50 个片段进行了四类评分：

正确性：生成的歌曲与视频内容的相关性如何。

噪音：哪首歌里的噪音最小。

同步：哪首歌在时间上与视频内容保持一致。

总体：他们更喜欢听哪首歌。

研究人员报告说，与其他基准系统相比，测评人员发现 Foley Music 生成的音乐更难与真实录音区分开来。此外，MIDI 事件的表征形式似乎有助于音质改善、语义对齐和时间同步。

作者写道，“结果表明，通过身体关键点和 MIDI 表示可以很好地建立视觉和音乐信号之间的关联。另外，MIDI 表征形式让我们的框架可以很容易地扩展到不同形式的音乐。我们预计，我们的工作将开启未来的一系列关于使用人体关键点和 MIDI 事件研究视频和音乐之间联系的研究。”

Foley Music 诞生的一年之前，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员曾推出一种系统——像素播放器（Pixel Player），它可以利用人工智能来区分和分离不同乐器的声音。输入一段视频，经过充分训练的 PixelPlayer 可以分离出伴随的音频并识别声源，然后计算图像中每个像素对应的音量并对其进行 “空间定位”，即识别出视频片段中产生类似声波的区域。