科技巨头们时不(bú)时就声(shēng)明在 AI 领(lǐng)域取(qǔ)得了突破性进展,对此我(wǒ)们已经见惯不(bú)惊了。
当地时间 2020 年 1 月 28 日(rì),Google 在(zài)一篇博客中介绍了一款开(kāi)放领域聊天机器人 Meena,号称“史上最强”,那么这一(yī)新(xīn)突破会让人(rén)眼前一亮吗?
【 图片来源:Google Blog 所有者(zhě):Google Blog 】
开放领域聊天(tiān)机(jī)器人(rén)开发难度大(dà)
实际上,设计智能聊天机(jī)器(qì)人是(shì)为了应对信息爆(bào)炸时代(dài)存在的信息过载问题。最初,人们把聊天机器(qì)人当作搜索(suǒ)引(yǐn)擎的终极形态(tài)进行设计和开发。不同于现有的搜索引擎,聊天(tiān)机器人可针对用户的问题自然又通顺地给出精准的答案,节约了很(hěn)多时间,从而(ér)带来更好的用户体(tǐ)验(yàn)。
根据(jù)使用场景划分,聊天机(jī)器人(rén)(chatbot)主要(yào)有开放域型(Open-Domain)和任务导向型(xíng)(Task-Oriented)两种。
其中,任务导向型(xíng)主要(yào)有问答系统、对(duì)话系(xì)统聊天机器人(rén),分别指(zhǐ)基(jī)于用户的问题给出(chū)一(yī)个回答(常用于智能(néng)搜索、智能家(jiā)居(jū)中的(de)家电控制等场景)和与用(yòng)户进行多轮(lún)对话的聊天机器人(如客服(fú)机器人,销(xiāo)售机器人等)。
而开放领域聊天机器人(也(yě)称闲聊式机器人)顾名思(sī)义(yì)针对开放域(yù)的对话场(chǎng)景,主题、内容不限,比如微(wēi)软小冰和苹果 Siri。Google 在上(shàng)述博客(kè)中表示(shì):
开(kāi)放领域聊天机器人的研究不仅具有学(xué)术价值,还可激发很多有趣的应用,如更深层次的人机交互、提升外语训练(liàn)效果,以及制作交(jiāo)互式电(diàn)影和游(yóu)戏角色。
值得一提的是,开放领(lǐng)域聊天机器人更(gèng)符(fú)合(hé)人们心中对「人工智能」的定位,开发(fā)难(nán)度自然(rán)也(yě)很(hěn)大(dà)——当前开放领(lǐng)域聊天机器人面临的一个严峻(jun4)问题在于它们表(biǎo)达的(de)内容往往(wǎng)没有意(yì)义(yì),无法与用户的(de)问题(tí)连贯起来,而且由于缺乏基本的常识和认知,不能(néng)给出针对性(xìng)的回复。
而 Google 开发的 Meena 正是一款(kuǎn)开放领域聊(liáo)天机器人(rén),那么相比现有(yǒu)的聊天机器人,究竟(jìng)有何突(tū)破(pò)?
【 Meena 和人类的对话(huà)内容 图片(piàn)来源:Google Blog 】
26 亿参数的端到端(duān)神(shén)经对话模型
Google 在博(bó)客中介绍称,Meena 是个 26 亿参数的端到端训练(liàn)的神经(jīng)会话模型,是 GPT-2 模型(xíng)最大版本(15 亿参数)的 1.7 倍(bèi)。据称,Google 利用 400 亿字的数据(jù)集(jí),通过 2048 个张量处(chù)理单元(即(jí) Tensor Processing Unit,Google 专用 AI 芯片)训练了(le) 30 天,得到了最佳版本(běn)。实(shí)验(yàn)表明,比起聊天(tiān)机(jī)器人 SOTA,Meena 能(néng)更好地完成对(duì)话,内容也更具体(tǐ)、清楚。
据悉,Meena 由 1 个 Evolved Transformer 编码器和 13 个 Evolved Transformer 解(jiě)码器组成:编码器(qì)用于处理对话语(yǔ)境,有助于 Meena 理解对方的话(huà);而解码器则会利用信息生成回复。而在这(zhè)一(yī)过(guò)程中,Google 表示:
研究(jiū)人(rén)员发现,超参数调整后,实(shí)现高(gāo)质量对话的关键(jiàn)在于性能更强的解(jiě)码器。
【 图片来源:Google Blog 所有(yǒu)者:Google Blog 】
雷锋网了解到,Google 从公(gōng)共(gòng)领域社交媒体(tǐ)对话上过滤得(dé)到了 341GB 的文本,并以树状脉络形式组织文本进行「多轮对(duì)话」训练。研究者将每(měi)轮对话作为(wéi)训练(liàn)样(yàng)本,同时每(měi)轮之前的 7 轮对话为语境信息(xī),共同构成一组数(shù)据。据悉(xī),选(xuǎn)择 7 轮对话作为语境,既能(néng)保证训练(liàn)过程(chéng)获得(dé)足(zú)够长的语境信息,同时模型也能不超(chāo)过内存限制。毕(bì)竟文本越(yuè)长,占用的内存也越多。
新提出的人(rén)类评价指(zhǐ)标 SSA
根(gēn)据博客(kè),上述这些表现是由 Google 根(gēn)据新提出的人类评(píng)价(jià)指(zhǐ)标「Sensibleness and Specificity Average (SSA)」得出的,而此次提出新的指标(biāo)是因为(wéi),目前聊(liáo)天机器人的人(rén)类(lèi)评价指标颇为复杂,而(ér)且也很难形(xíng)成一致(zhì)的评价指标。Google 表示(shì),SSA 能捕获基本的、但对人(rén)类(lèi)对(duì)话(huà)来说很重(chóng)要的属性。
为计算(suàn)这一指(zhǐ)标,研究者测试了 Meena、Mitsuku、Cleverbot、DialoGPT 及(jí)小冰(bīng)等常见的聊(liáo)天(tiān)机器人。在测试中,对于每一(yī)款(kuǎn)聊天机器人,研究者都在 100 个对话中收集了 1600 到 2400 轮,各聊天机器人的回复都由人类评价者评分(主要依据(jù)对话的流畅性和回答的准确性),其各自性能表(biǎo)现如下图。
【 图片来(lái)源:Google Blog 所有者:Google Blog 】
不难看出,Meena 相(xiàng)比(bǐ)于现有的(de) SOTA 聊天(tiān)机器人,有(yǒu)着更(gèng)高(gāo)的(de) SSA 分数(shù),甚至接近于(yú)人类的表现。
困(kùn)惑(huò)度与 SSA 强相关
毫(háo)无(wú)疑问,人(rén)类评价或多或少存在(zài)一些问(wèn)题,因此很多研究者都希(xī)望找到(dào)一个能够自(zì)动计算的(de)评价指标(biāo),而且这个指标要能和人类评(píng)价准确对应。
雷锋网了(le)解到,困惑度(dù)(perplexity,指一(yī)种任何神经会话模(mó)型都能轻易获得的计算(suàn)指标)是 seq2seq 模型(xíng)(雷锋网注:一(yī)种循环神经网(wǎng)络的(de)变种,包(bāo)括编码(mǎ)器(qì)和解码器两部分,是自然语言(yán)处理中的(de)一种(zhǒng)重(chóng)要模(mó)型(xíng),可用于机器(qì)翻译、对话(huà)系统、自动文摘)中的一个(gè)常见指标,用于评价语言模型的不(bú)确定(dìng)性。
而(ér)值得(dé)一提的是,Google 证明(míng)了困惑度与 SSA 高度(dù)相关。
实际上(shàng),训(xùn)练 Meena 正是为了(le)最大程度地减少困惑度,以(yǐ)及预测下一个标记(雷(léi)锋网(公众号:雷锋网(wǎng))注:指(zhǐ)对话中的下一个单(dān)词)的不(bú)确定(dìng)性——据(jù)博客称,这是因为 Meena 的核(hé)心为 Evolved Transformer seq2seq 架构,即一种通过(guò)进化(huà)神经架构(gòu)搜(sōu)索发现的 Transformer 体系(xì)结构,能够改善困惑(huò)度。
在(zài)博客中 Google 表示,研究者依据层数(shù)、注意力数(shù)量、训练步数、编码器、训练方(fāng)式等因素,共(gòng)测试了 8 种不同(tóng)的模型,发现困惑度越(yuè)低,SSA 分数(shù)越高,同时两者的相关系(xì)数很高(R^2 = 0.93)。
【 图片来源:Google Blog 所有者(zhě):Google Blog 】
同时 Google 表示:
研究者(zhě)将继续(xù)通过改进算法、架构、数据和计(jì)算量等,降低这(zhè)一神经会(huì)话模(mó)型的困惑度。
Meena 意(yì)义大(dà)吗?
根据博客中展示的数(shù)据(jù),我(wǒ)们相信 Meena 的确(què)性能出众,不过 Meena 究竟什么时候(hòu)能推出、真正推(tuī)出后表现如何(hé),可能都要打问号。博客(kè)中提到,目(mù)前研究团(tuán)队正在(zài)就这(zhè)一研究的(de)风(fēng)险及益(yì)处做进一步的评估,并可能在(zài)未(wèi)来几(jǐ)个月内(nèi)推出 Meena,旨在推动该领域的发展。
对此,VentureBeat 记者 Ronald Ashri 在其(qí)报道中(zhōng)表示:
首先我们要(yào)意识到(dào),即(jí)便 Google 开源所有代码,也很(hěn)少有人能培训类(lèi)似(sì) Meena 的模型。Meena 应该还在实验室里,操作起来也非常复杂,还(hái)不能将其整合到(dào)一个工(gōng)具(jù)中,而且 Google 也不可能很(hěn)快就将其作(zuò)为一项服务向用户提(tí)供。因此(cǐ),恐怕短期(qī)内 Meena 难以推(tuī)出。
另外(wài),在实用性(xìng)方面(miàn),诚然 Meena 作为一款开放领域聊天机器人,能够实现(xiàn)多(duō)轮(lún)对话。不(bú)过 Meena 并不(bú)能协助用户(hù)完成某项任务、学习某项新技能(néng),或为身处困(kùn)境(jìng)的用户给予情感或心理支持,和用户的(de)聊天没(méi)有明确的目(mù)的。而耗(hào)费时间进行无意义的交谈(tán),在我们所处的时代大背景下似(sì)乎并非理想产品。
与此同时,记者 Ronald Ashri 也对 Meena 提出(chū)了进一步质疑。正如上文所述,Google 从(cóng)公共(gòng)领域社交(jiāo)媒(méi)体(tǐ)对(duì)话上(shàng)过滤得到了(le) 341GB 的文本,以此进行进(jìn)一步(bù)的训练。那么,数百万的(de)公(gōng)共领域社(shè)交媒体对话会是这一所谓的(de)「史上最强聊天机器人(rén)」的(de)正确(què)数据集吗?Meena 是否会讲出不恰(qià)当(dāng)的(de)话,可能也是一个我们要关注的点。
近年来,随着越来越多的 AI 聊天解决方案进入(rù)生活,我(wǒ)们需要关注最有价(jià)值的东(dōng)西——定义类似人类的(de)对(duì)话(huà),并探(tàn)究这类对话在聊天(tiān)机器人领域中的角色。
正如 Ronald Ashri 所(suǒ)说:
Meena 让我们更接近目标,但尚未让(ràng)我们达到(dào)目标。