想(xiǎng)象一个计算机(jī)程序能够直观地识别出在无声的(de)钢琴演奏视频中演奏的是(shì)哪首乐(lè)曲,或(huò)许并不夸张。然而,一个新的人工智(zhì)能系统却更进一步,以(yǐ)数字方式逼真地再现了钢琴(qín)演奏的声音。
这项技术被(bèi)称为(wéi)Audeo,由华盛顿大学的一个团队设计。研究人员(yuán)使用钢琴家保罗(luó)·巴顿的YouTube视频对系统进行了培训和测试。培(péi)训包括约17.2万巴顿演奏巴赫和莫扎(zhā)特等著(zhe)名古典作(zuò)曲家音乐的视频帧。
在分析一(yī)段无声视频时,所产生的(de)系统首先会观察(chá)哪些键被按下的顺序,确定各个音符及其排列方式。也就是说,它(tā)还能感知到(dào)每个(gè)键被(bèi)击打(dǎ)的力度和被(bèi)按住(zhù)的(de)时间--这让它能计算出每(měi)个音(yīn)符的强度,以及它在随后弹奏的音符下面持续的时间长度。它还(hái)考(kǎo)虑(lǜ)到了钢琴独特的声(shēng)学特性。然后,这些数据被转换为一种可以被现有(yǒu)的数字(zì)合成器理解(jiě)的格(gé)式。据报道,当该(gāi)合成器回(huí)放音乐文件时,它(tā)听起来非常(cháng)像原(yuán)始的钢琴(qín)音乐(lè)。
在对Audeo的测试中,它的任务是根据巴(bā)顿演奏的静音视频重现钢琴音乐,而(ér)不是系统所训练的音乐作品(pǐn)。当SoundHound等(děng)音乐(lè)识(shí)别应用分析这些(xiē)再现时,它们能够以大约86%的准确率识别出乐曲(qǔ)。相比(bǐ)之下,当这些(xiē)应(yīng)用(yòng)分析相同视(shì)频中的原始钢(gāng)琴音(yīn)频时(shí),其识别(bié)准确率攀升至93%。随着技术的(de)进一步发展,这种差距应(yīng)该会(huì)缩(suō)小。
“我们(men)希望我们的研究能(néng)够实现与音乐互动的新方法,”该研究的高级作者Eli Shlizerman副教(jiāo)授说。“例如,未来的一个应(yīng)用是,Audeo可以(yǐ)扩展到虚拟钢琴,摄像头只记录一个人的(de)手。此外,通过将摄像头放在真实的钢(gāng)琴之上,Audeo有(yǒu)可能协助教学生如何(hé)演奏的新方法(fǎ)。”