小时候看特务(wù)电影时,特工们往往有一项必(bì)备(bèi)的技能,就是(shì)隔着几百米远盯着正在说话的(de)对象,从嘴型判断出对方在(zài)说什么(me)。有了这种(zhǒng)记忆,导(dǎo)致如(rú)今看什么语音识别技术都觉(jiào)得相(xiàng)当一般——我都说出声儿了你才听(tīng)懂,算什么AI好汉。
不过最近一项专利申请表明(míng),微软正在向特工学习,推出了无声语音识别技术。当(dāng)AI也能像特工一样,无声之中(zhōng)辩人言,我们的世界究竟会有什(shí)么不(bú)同?
除去唇语识别,AI还(hái)有什么方式悄悄听懂你的话?
说起(qǐ)无声语音识别,可能(néng)很(hěn)多人第一反应就是复制人类(lèi)的方式,利(lì)用图像识别进行辩读唇语。而(ér)利用唇语进行(háng)语音识别这种方式也由来(lái)已久,但是识别的准确率一直(zhí)不算(suàn)高(gāo)。DeepMind曾在2016年做过测试,经过1万小时的新闻(wén)视频训练(liàn),AI唇(chún)语准确率达到了46.8%。国内有一(yī)家企业(yè)曾(céng)经提(tí)供(gòng)过相(xiàng)关数据:在对中文新闻视(shì)频的识别中,准确率达到了70%。而(ér)搜狗所推出的驾驶场(chǎng)景下的(de)唇语识别,因为涉及到的词汇(huì)量(liàng)很少(shǎo),准(zhǔn)确率能够达到90%。
可以(yǐ)发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识别(bié)准确程度实在是有些拿不上台面。对于中文(wén)这种(zhǒng)一字一音节的语言来说(shuō)还好,对于(yú)英文这种连(lián)音很多(duō)的语(yǔ)言来说,唇语识别要(yào)跨越(yuè)的门槛确实不(bú)小。
另(lìng)一方面来看(kàn),唇语识别所(suǒ)涉及到(dào)伦理(lǐ)问题(tí)实在(zài)过于严重(chóng)。唇语识别的“射程(chéng)”太远,如果(guǒ)这种(zhǒng)技术(shù)真的发展成熟,意(yì)味着天网之下的我们在交谈时将再无隐私(sī)。在隐(yǐn)私焦虑越来越浓的(de)今天,哪家企业(yè)公开研究这项技术(shù),只怕(pà)是(shì)觉(jiào)得(dé)自己(jǐ)家的公关部门过得太清(qīng)闲。
因此(cǐ)包括微软在内的产业和(hé)学界,都在(zài)寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别(bié)的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。
微软所提交的专(zhuān)利,就是典型的“气宗”——在终端上添加传(chuán)感器,通过感知用户说话时的气流来判断用户说话(huà)的内容。这(zhè)种终端如同一(yī)只小型麦克风,置于用户嘴(zuǐ)边,用户(hù)在(zài)说话时形成(chéng)的气流会在设备(bèi)中形成反射,经过(guò)训练,可以将这些气流反射的(de)信号(hào)和文字一(yī)一对应。
而“电宗”则更加(jiā)神奇,我们(men)知道人在(zài)说话时需要调(diào)动整个下半张脸的肌肉,不同的文(wén)字发音所调动肌(jī)肉的方式(shì)也并不相(xiàng)同。通过对面部(bù)EMG(肌电)信号的采集(jí),来(lái)学习人(rén)类(lèi)说话时面部EMG信号特征,并(bìng)通过(guò)神经网络的训练将EMG信(xìn)号和(hé)文(wén)字对(duì)应起来。
可以(yǐ)看(kàn)出这两种无声语(yǔ)音(yīn)识别都有一个共同(tóng)的特点,那就是自主性和私(sī)密性。不管是EMG信(xìn)号采集还是气流采集,都需(xū)要在(zài)讲(jiǎng)话者(zhě)身上佩戴(dài)好设备,而不(bú)是(shì)像图像技术一样(yàng),能够在远程且讲(jiǎng)话(huà)者不(bú)知(zhī)情(qíng)的情况下进行采集分析。
无声语音识(shí)别(bié)变成真·气功?
不论(lùn)是(shì)气(qì)宗还是电宗,这些(xiē)无声语音识别技术(shù)都面临着同样的问题——既然(rán)要用户把话说出来才能进(jìn)行识别,那为什么不直(zhí)接应(yīng)用语音识别来(lái)进(jìn)行文字转(zhuǎn)换和翻译(yì),非要弄一些和(hé)“气功”一样没(méi)有切实应用场景的花招(zhāo)?
其(qí)实无声语音识(shí)别的(de)应用,可能不像大(dà)家(jiā)想象的那样(yàng)广泛,它既不能(néng)以最高(gāo)效(xiào)的方(fāng)式(shì)帮助听障人士,也不允许被(bèi)应用于监听等等工作。但(dàn)在一些(xiē)关键场合下,无声语音(yīn)识别却(què)可以发挥出奇用。
我们(men)可以一起开动脑(nǎo)筋,想想在(zài)哪里人们需要说话(huà),但(dàn)却听不到彼此的声音(yīn)。答案很简单(dān),要么是在声音无法(fǎ)传播的地方,要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景:灾害现场、舱外探索(suǒ)、水下作业……
在这类(lèi)场所中,人们(men)或许为了躲避被污染(rǎn)的空气、或许为了呼吸氧气,都(dōu)会穿上(shàng)类似(sì)生化服(fú)、宇航员服等等特殊服装。穿上之后既看不到(dào)对(duì)方的表情,也听(tīng)不到(dào)对方的声音(yīn),更没(méi)办法用语音交互去控制(zhì)其他(tā)设备了。同时环境情况(例如氧(yǎng)气不够充足)往往不(bú)允许人们(men)以正常的声音说话,加上防(fáng)护服的封闭状况会(huì)引起声(shēng)音的回响,以往的有声(shēng)语音识(shí)别在这种情况下(xià)很难发挥作用。
这时可(kě)以被安置在防护(hù)服内部的无声语音识别(bié)就显得(dé)很(hěn)有价值(zhí),讲话者只需要做出口型就能向(xiàng)外界传递信(xìn)息。
除此之外还有嘈杂的马路、工厂车间、机场……
在这些场(chǎng)所中,想要让对方听清自己的声音,往往需要扯着嗓子吼。想让语音识别准确拾音,更是难上加难。这(zhè)时利用无声语音(yīn)识别就会轻松很多(duō),不仅(jǐn)可以(yǐ)准(zhǔn)确表达信息,也能让一些(xiē)处于(yú)这种场合的工作人员戴上隔音耳塞保护(hù)自己的(de)听力。
实(shí)际上目前(qián)在欧洲一些型号的战斗机中,就因为机(jī)舱(cāng)内噪音巨大、飞(fēi)行员(yuán)之间(jiān)无法沟通,已经(jīng)应用上了EMG信号无声语音(yīn)识(shí)别(bié)技术。
当然(rán),目前相比语音识别技术、甚至相比唇语语音识别,无声语音识别技术的(de)发展阶段还很初级,应用效率也不高。
实际上(shàng)无声(shēng)语音识(shí)别是一(yī)项典型的“美好(hǎo)而无用”的AI技术,它既完美体现了一(yī)系列技术的排列组合,例如EMG信(xìn)号无声语音(yīn)识别所体现出(chū)的AI与神经学的结合;又在应用(yòng)上极大程度的(de)受限(xiàn),即(jí)使(shǐ)在(zài)一些声音难以传播的场景下(xià),也要考虑计算(suàn)条件、识别语音后信息再(zài)传递的媒介(jiè),更不用提复杂的(de)数据收集工作了。
但我们有理(lǐ)由相信,在未来AI技术(shù)越来越普及化、应用成本越来(lái)越低时,总会出现(xiàn)一些极端场景(jǐng)应用上这些看似无(wú)用的技术——也许未来有一天(tiān),战斗机的控制(zhì)也要应用(yòng)上语音(yīn)交互呢?