早上,王爷爷(yé)吃完饭,机器人(rén)“小明”赶紧提醒王爷爷要在半小时之(zhī)内吃药,吃完药王爷爷坐在电视机(jī)前,“小明”告诉王爷爷老花镜在茶几(jǐ)的(de)第一个(gè)抽(chōu)屉中。午休过后,王爷(yé)爷要出门散步,“小明”告(gào)诉王爷爷外面(miàn)只(zhī)有10度,需要穿外套,并拿上伞。
以上的情(qíng)景绝对不只是(shì)畅想,随着(zhe)老(lǎo)龄化和少子化(huà)程(chéng)度的加(jiā)深(shēn),机器人会(huì)越来越多走(zǒu)进老年人家(jiā)庭,成为智能(néng)养老小助(zhù)手(shǒu)。但(dàn)是每个老(lǎo)人的脾气、性格、需(xū)求各不相(xiàng)同,因此(cǐ)要求机器人能够不(bú)断学习,理(lǐ)解(jiě)老人的隐性(xìng)需求,真正能够陪伴老人。如何满足这些个(gè)性化的(de)需求?从(cóng)人(rén)工智(zhì)能的角(jiǎo)度分析(xī),就要(yào)让机器人不断学(xué)习(xí),认识老人(rén)的家庭(tíng)环(huán)境,理(lǐ)解老人(rén)的需求,但是目前,不(bú)管是从机(jī)器视觉方面,还是自然语言(yán)理(lǐ)解方面(miàn)都(dōu)面临巨大的挑战。
在英特尔中国研究院2018年媒体(tǐ)开放日上,英特尔的研究人员从计(jì)算机视觉、自然(rán)语言识(shí)别、强(qiáng)化(huà)学习等领域分享了英(yīng)特尔的研究成(chéng)果,让我们看(kàn)到(dào)未(wèi)来机(jī)器人的发展方向。
目前的(de)技术瓶颈(jǐng)
机器(qì)人(rén)进入(rù)家庭(tíng),首先需要认识主人,只(zhī)有认识了(le)主人才能进行全(quán)方位的服务,比如主(zhǔ)人习(xí)惯什么时候起床,如(rú)果起床晚了是否需要进行提醒?喜(xǐ)欢吃什么食物,当家里没有了是(shì)否需要提醒子女购买?对于主人和重要物品,目前是基于深(shēn)度学习,进行大量训练进行识别,但(dàn)是即使进(jìn)行了大(dà)量(liàng)训练,可能(néng)有时候还(hái)会出错,比(bǐ)如针对老花镜进行了一万张(zhāng)图片的(de)训练(liàn),人工智能(néng)还是有可(kě)能认错(cuò)主人(rén)的老花镜。
另外(wài),由于每个家庭的需求不同,机器(qì)人无法进行(háng)预(yù)编(biān)译处理,需要个(gè)性(xìng)化定制。比如(rú)有些人喜欢静,家(jiā)里(lǐ)不能随便走动,有些人喜欢动,需(xū)要随时(shí)满足主人(rén)的呼唤。主(zhǔ)人的起床时间不同(tóng),无法预先编程,需要根(gēn)据个(gè)人的特点进行观察。因此,做好机(jī)器人不仅需要人脸识别、底层语义分析,还需(xū)要高层语义(yì)分析,从而让机(jī)器人的智能程度满足个性化需求。
进入家庭后需要(yào)自主学习
现在的(de)人脸识别一般是(shì)对正脸进行(háng)识别,对(duì)于侧脸识别可能就没(méi)有那么灵了,如果在家中机(jī)器人只能识别正脸将会发(fā)生很多尴尬,用户的交互体验也会(huì)大打折(shé)扣,因此有(yǒu)人想出了通过人体特征进行辨识,比如(rú)衣服,但是(shì)当主人换了衣服机器人又无(wú)法辨识。英特尔所采取的方式是将人脸(liǎn)特征和人体特征相结(jié)合,人体(tǐ)特征不需要(yào)预先把人各种各样的衣服都要看一遍或者(zhě)姿(zī)态看一(yī)遍才能认,通过人体特征认人,而(ér)是通过人脸开始不断地自(zì)我(wǒ)学习,机(jī)器人刚开始通(tōng)过人脸(liǎn)识别主人(rén),经过一周的交互和观察(chá),可以从各个角度把(bǎ)主人准确地识别出(chū)来。
因为主人可(kě)能(néng)会(huì)换(huàn)衣服,机(jī)器人还会发(fā)生错误,这时(shí)候机器人需要和主人(rén)主动交互,把可能的错误进行确(què)认,这是自我学(xué)习的认人功能。同时,英特尔还(hái)研(yán)发了一些自适应物体识别,比(bǐ)如:药瓶,通(tōng)过对一帧的图像(xiàng)标注之后,把物体在线建一个模型(xíng),后续可(kě)以把这个物体的边界准确的分割出来(lái),这等于认识物体是(shì)可以通过向用(yòng)户学习的过程实现。
portant;" />
机(jī)器人(rén)的主动学习和(hé)强化学习
让机器人理解:“昨天我(wǒ)在客厅(tīng)里吃药,药瓶(píng)去哪里了?”
在家庭生活中,王爷爷(yé)可能(néng)问机器人:昨天我(wǒ)在客厅里吃药,药瓶去哪(nǎ)里了?这个问题(tí)貌似非常简单,可能三岁小朋友也能(néng)理解,但是对机器人来说里面有很难(nán)跨越(yuè)的技术鸿沟(gōu)。其中王爷爷是对人的识别,吃药是动(dòng)作识别(bié),药瓶是物(wù)体识别,这些需要底(dǐ)层识别模块来实现。再看(kàn)“昨(zuó)天”和“客(kè)厅(tīng)”这两个关键词(cí),客厅是对空间的理解,昨天是(shì)对时间信的理解。如何让(ràng)机器人理解(jiě)这(zhè)句话?首(shǒu)先最底层要进行人物识(shí)别、物体识别、情绪检测、动作检测,接下来,有一个三(sān)维(wéi)语义环境,就是(shì)把底(dǐ)层检测到的信息(xī)和物理环境对应(yīng)起来(lái),比如人在什么位置,物(wù)体(tǐ)在(zài)什么位置,这件(jiàn)事发生在什么位置,这(zhè)些(xiē)信(xìn)息只有在三维语义环(huán)境(jìng)的模块(kuài)中对应上,机(jī)器人才能够理解事(shì)件发生的意义。
英特(tè)尔利用三(sān)维语义(yì)环(huán)境和个性化(huà)知识(shí)库这两个模块来解决这些问题,从底层(céng)的感知模块走(zǒu)到(dào)应(yīng)用,但是(shì)底层的感知(zhī)模块不(bú)可能(néng)做到百分(fèn)之百精准(zhǔn)。这个错误会往(wǎng)上(shàng)层(céng)传播,到了(le)空间层,我们希(xī)望把(bǎ)底层的这(zhè)些信息打上(shàng)空间智能的标签,位置跟空间相对(duì)的(de)情况,包括跟空(kōng)间(jiān)的三维建模,都是(shì)在这一(yī)层次进行的。理想(xiǎng)的情况(kuàng)机器人到了家里(lǐ),马(mǎ)上建立(lì)空间模(mó)型,并(bìng)且能够理解空间的(de)含义。到了(le)知识库(kù)层面,能够(gòu)很好的记(jì)忆这个知识(shí),基于(yú)这个知识进(jìn)行推(tuī)理、应用(yòng),但是目前的技术还存在问题,不可能做到百分(fèn)之百精(jīng)准(zhǔn)。
三维语义(yì)环境所做的是从(cóng)感知(zhī)层(céng)得到信息(xī),比如药瓶的位(wèi)置,用(yòng)坐(zuò)标的(de)方式标记出来,接(jiē)下(xià)来空间智能要理解这个(gè)空间(jiān)是客厅还是餐厅,到 这(zhè)一层次才能跟人交流,进而判(pàn)断出客厅,然后(hòu)顺利(lì)在(zài)客(kè)厅找到药瓶。可以看出,空间智能主要的(de)工作是快速对空间进行建模,并理解这个空间。关于个性化的知识图谱,主要功(gōng)能是记忆和推理,所面临的(de)最大挑战来自于我们想记录(lù)的知识。人类知识(shí)分两块:一块是稳定的(de)知识,就像谷歌和Facebook力图想存的知识,谷歌叫Google Graph,这(zhè)些知(zhī)识可以事(shì)先做好,并且经过专家审核;另(lìng)外一种(zhǒng)是个性化知识,是动态(tài)变(biàn)化(huà)的(de),机器人来到家(jiā)庭之前(qián)无(wú)法提前获取,为了获取这样的知识,我们的挑战必须要(yào)有一个合适的知识表(biǎo)示(shì),合(hé)适(shì)的知识推理,而且(qiě)这个知识图谱要能容忍底层产生的错误。
强化(huà)学习让(ràng)机器人能够完(wán)成(chéng)主动(dòng)服务
当(dāng)机器人能够(gòu)理解语(yǔ)言(yán)的时(shí)候,说(shuō)明机器人(rén)已经具备(bèi)了和人沟通的能(néng)力,但是想要(yào)实现真正的照(zhào)顾(gù)别人,机器(qì)人需要更深的理解能力,不光是被动地(dì)去服(fú)务,还能主动的猜测主人的意图。从王爷爷的例子来看,当(dāng)王爷爷需要药瓶(píng)时机器人(rén)可以拿给他是一(yī)种(zhǒng)情况,如果机(jī)器人看到王爷爷在找东(dōng)西(xī),能够猜测他(tā)想找药瓶还是(shì)找水,就能提供(gòng)主动服务(wù)。这里会用到(dào)强化(huà)学习,它(tā)教给(gěi)机器人三个(gè)功能:一(yī)是如(rú)何学习新的(de)能力;二是(shì)如(rú)何(hé)做(zuò)的一次比一次好;三(sān)是如何主动地提(tí)供正确服务。
关于一次比(bǐ)一次做的好这一点(diǎn),需要通过小样本的强化(huà)学习(xí)来解决(jué)。我们希望机器人一次比一次做得好,需要猜(cāi)测,而猜测本身也是(shì)需要优(yōu)化的。猜测的(de)目的主要有两方面,一是有(yǒu)时候不能进行标注,比如(rú)王爷爷走向桌(zhuō)子可能是找水,走向柜子可能是找(zhǎo)药,但(dàn)是这个事情无法去标注,机器人需要去主动采集样本(běn),通(tōng)过回报自己进行标注。强化学习需要(yào)不断探索和优(yōu)化,从(cóng)而让机器人更加智能(néng)。
当然(rán),机(jī)器人的学习还面(miàn)临(lín)巨大的挑战,比如(rú):人的关(guān)节都是全向关(guān)节,而机器人不能做到(dào)这(zhè)一点(diǎn),每一个关节只能向一个方(fāng)向旋转。如(rú)果我(wǒ)们希望把人(rén)的一(yī)个动(dòng)作映射到机器人上,需要做一个推广,使它能够适应机器人独特的运动特性(xìng)。另外,我们应用(yòng)时还要考(kǎo)虑到采样成本的预算(suàn),当学习一个(gè)新的性能时,机器人必(bì)须一(yī)次学会。我(wǒ)们需(xū)要考(kǎo)虑采样(yàng)成本(běn)和比较更高级的需求,来达到对于实际机器(qì)人学(xué)习来(lái)说可用的程度。
关于人工智能会替代人类(lèi)的说法已经深入(rù)人心,曾经(jīng)引来一波(bō)恐慌,听完英(yīng)特尔研究院的工程师讲解(jiě),笔者觉(jiào)得那个时(shí)代还很遥远,机器人需要经过漫(màn)长(zhǎng)的(de)自我学习才能达到熟练理解空间和(hé)语义(yì)的阶(jiē)段,要实现真正的(de)智能似乎还需(xū)要计算能力和存(cún)储能力(lì)的(de)进一步的提高,硬件技术和软(ruǎn)件算法还(hái)需要很大(dà)的进步空间。