自然语(yǔ)言处理(英文Natural Language Processing,简(jiǎn)称NLP)是人工(gōng)智能(英文Artificial Intelligence,简(jiǎn)称AI)领(lǐng)域(yù)的重要研究课题,被誉为人(rén)工智能技术的一个掌上明珠;它(tā)研究能实现人与计算机之间(jiān)用自然语言进行有效通(tōng)信的各种理论和方(fāng)法,涉及(jí)面极为广泛(fàn)。国际知名学者周海(hǎi)中先生曾(céng)经指出:“自然语(yǔ)言(yán)处(chù)理是极有吸引力(lì)的研究领域,它(tā)具(jù)有(yǒu)重大的理(lǐ)论(lùn)意(yì)义和实用价值。”目前,NLP已成(chéng)为(wéi)推(tuī)动科技发展的(de)强(qiáng)大(dà)动力(lì),并成为世界各国综合(hé)国力竞(jìng)争的(de)焦点。
NLP主要研(yán)究(jiū)能实现人(rén)与(yǔ)计(jì)算(suàn)机(jī)之间用自然语言进行有效通信的各种理论和方法。而(ér)用自然语言与计算机(jī)进行通信,有着十分重(chóng)要的实(shí)际(jì)应用(yòng)意义,也(yě)有着(zhe)革命性的理论意义(yì)。实现(xiàn)人机间自然语言(yán)通信意味着要使计算机既能理解自然语言文本的意义,也(yě)能以自然语言文本来表(biǎo)达给定的(de)意图、思想等(děng);前者称为自(zì)然(rán)语言理解(英文Natural Language Understanding,简称NLU),后者称为自(zì)然语言(yán)生成(英文Natural Language Generation,简称NLG)。因此,NLP大(dà)体包括了NLU和NLG两(liǎng)个部分;因为处(chù)理自然语言的(de)关键是(shì)要让计算(suàn)机“理(lǐ)解”自然语言,所以通常把NLU视为NLP,也称(chēng)为计算语(yǔ)言学。
NLP是一(yī)门(mén)融语(yǔ)言学、计算机科学、数学于一体(tǐ)的科学。因此,这一领域的研究(jiū)将涉及自然语言(yán),即(jí)人们日常使用(yòng)的语言,所以它与语言学的(de)研究有着(zhe)密切的联(lián)系,但又(yòu)有重要(yào)的区(qū)别(bié)。NLP并不是一般地(dì)研究(jiū)自然语言,而是研制能有效地(dì)实(shí)现自然(rán)语言通(tōng)信的(de)计算机系统,特别是其中的软件系统。因而它是计(jì)算机(jī)科学的一部分。可以(yǐ)说,NLP是计算机科学、语(yǔ)言(yán)学(xué)、AI等关(guān)注计(jì)算机和人类语言之间(jiān)的相互(hù)作用的领(lǐng)域。目前,人们(men)对AI的需求也从计算智(zhì)能、感知智能到了以NLP为代表的认知智(zhì)能的层面。没有成(chéng)功的NLP,就不会有(yǒu)真正的认知智(zhì)能。
由于AI包括(kuò)感知智能(比如图像识别、语言识别和手势(shì)识别等)和认知智能(主要是语言理解(jiě)知识和推理),而语言在(zài)认知智(zhì)能起到(dào)最核心的作用。如果能把语(yǔ)言问题解决了,AI最难的(de)部分也(yě)就基(jī)本解决(jué)了。美国微软公司创始人比尔·盖茨先生曾经(jīng)表示,“语言理解是人工智能领域(yù)皇冠(guàn)上的明珠(zhū)”。前(qián)微(wēi)软公司全球执行副总裁沈向洋先生也在公开演讲时说:“懂语言者得天下(xià)……下一个十年(nián),人工智能的(de)突破在自然语言的理解……人(rén)工智能对人类影(yǐng)响最为深刻的就是自然语言方面”。由于理(lǐ)解自(zì)然语言需要关于外(wài)在世界的广泛知识以(yǐ)及(jí)运用操(cāo)作(zuò)这些(xiē)知(zhī)识的能力(lì),所以NLP也被视为(wéi)解决AI完备(bèi)(AI-complete)的(de)核心问题之一。可以说,NLP目前是AI领(lǐng)域(yù)的重要研究课题,对它的研究也是充满(mǎn)魅力和挑战的。
当(dāng)前AI技(jì)术在认知智能层面仍面临诸多挑战(zhàn)。如果(guǒ)我们(men)有(yǒu)所推进的话,我(wǒ)们(men)的(de)认知(zhī)智能就会进(jìn)一步提(tí)升(shēng),包括语言的理(lǐ)解水平、推理水平(píng)、回答问题能力、分析能力、解决问题(tí)的能力、写作(zuò)能力、对话(huà)能(néng)力等(děng)。然后再加上感知(zhī)智能的(de)进(jìn)步,声音、图象、文字的识别和生成的能力,以及多模态文、图交叉(chā)的能力,通(tōng)过文字可以生成图象,根据图象可以生成(chéng)描述的文字(zì)等等(děng),我们就(jiù)可以推进很(hěn)多人类的应用,包(bāo)括搜索引擎、智能客服,包括教育、财(cái)政、电子商务(wù)等各个方面的应用;也可以(yǐ)把AI技术(shù)用在我们的产业上,帮助产(chǎn)业实现数字化转型。
最(zuì)早(zǎo)的NLP研究工作是(shì)机器翻(fān)译。1949年,美国(guó)知名科学家沃伦(lún)·韦弗先生首先(xiān)提出了机器翻译设计(jì)方(fāng)案(àn)。20世(shì)纪(jì)60年代,许(xǔ)多科学家对(duì)机器翻译曾有大规模的研究工(gōng)作,耗费(fèi)了巨额(é)费用(yòng);但他们显然(rán)是低估了自然语言的复杂(zá)性,语言处理的理论和技术均(jun1)不成熟,所以进展不(bú)大(dà)。当时的主要做法是存储两种语言的单词(cí)、短语对(duì)应译法(fǎ)的大辞(cí)典,翻(fān)译时一一对应,技术上只是调整语言的同条顺序。但(dàn)日常生活中语言的(de)翻译远(yuǎn)不是(shì)如此简单,很多时候还要参考某句话前后的意思,需要上下文联(lián)系起来才能正确翻译——这就(jiù)是机译技术难度高之(zhī)所在。
大(dà)约20世纪90年(nián)代(dài)开(kāi)始,NLP领域发生(shēng)了巨大(dà)的变(biàn)化。这种变化有两个明显的特征:(1)对系统的(de)输入,要(yào)求研制的NLP系统能处理大规模的真实文本(běn),而不(bú)是如以前的研究性系统那(nà)样,只能处理很少的词条和典型句子。只有(yǒu)这样(yàng),研制的(de)系统才有真(zhēn)正的(de)实用价值。(2)对系统的(de)输出(chū),鉴(jiàn)于真(zhēn)实地理解自然语言是十分困难的,对系统并不要求能对自然语言文(wén)本进行深层的理解,但要能从中(zhōng)抽取有用(yòng)的(de)信息。同时(shí),由于强调(diào)了“大规(guī)模”和“真实文(wén)本”,所以下面两方面的基(jī)础性工作也得到了重视和加(jiā)强:(1)大规模真实(shí)语料库(kù)的研制。大规模的经过不同深度加工的真实文(wén)本的语料(liào)库,是研究(jiū)自然语(yǔ)言统计性(xìng)质的基础;如果没有这样的语料库(kù),统(tǒng)计方法只能是无源之(zhī)水。(2)大(dà)规模、信(xìn)息丰富的词典的编制工作。因此规模(mó)为几万,十几万,甚(shèn)至几十万词,含有丰富的信息(xī)(如包含词(cí)的搭配信息)的计算机可用(yòng)词典对NLP的重要性是很(hěn)明显的。
系统的输入与输出这两(liǎng)个特征在NLP的(de)诸多领域都(dōu)有所(suǒ)体(tǐ)现,其发展直接促进了(le)计算机自动检索技术(shù)的出(chū)现和兴起。实际上,随着计(jì)算机技术的不断发展,以海量计算为基础的机(jī)器学(xué)习、数据挖掘、数据建模等技术的(de)表(biǎo)现也愈发优异。NLP之所(suǒ)以能够度(dù)过“寒冬”,再次发展,也(yě)是因(yīn)为计算机科学与统计(jì)科学的不断结合,才让人类甚至机器能够不断从大量(liàng)数据中发现(xiàn)“特征”并加以学习。不过要(yào)实现对自然语言真正意义上(shàng)的理解,仅仅(jǐn)从(cóng)原始文本中进(jìn)行学习是不够的,我们还需要新(xīn)的方(fāng)法和模型。
目前存在(zài)的问(wèn)题主要有(yǒu)两个方面:一方面,迄今(jīn)为止的(de)语法都(dōu)限于分析(xī)一个孤立的(de)句子,上下(xià)文关系(xì)和谈(tán)话环境对本(běn)句(jù)的约束和影响(xiǎng)还缺乏系统的研究(jiū),因此分析歧义、词语省略(luè)、代(dài)词所指、同一句话在不同场合或(huò)由不同的人(rén)说出来所具(jù)有的(de)不同含义等(děng)问题,尚无(wú)明确规律可(kě)循,需(xū)要加强(qiáng)语义学和语用学的(de)研究(jiū)才能逐步解决。另一方面,人理解一(yī)个句子不是单(dān)凭语(yǔ)法,还运用了(le)大量的有关(guān)知识,包括生活知(zhī)识和专门知识,这些知(zhī)识无法(fǎ)全部贮存在计算机里。因(yīn)此一(yī)个(gè)书面理(lǐ)解(jiě)系统只能(néng)建立(lì)在有(yǒu)限的词汇(huì)、句型和特定的主题范围(wéi)内;计(jì)算机的贮存量和运转速度大(dà)大提高之后,才有可能适当扩大范围。
由于语言工程、认知科学等主要局限于实验室,目前来看数据处理可能是NLP应用(yòng)场景最(zuì)多的一个发展方向。实际上,自从(cóng)进入大数据时(shí)代,各大平台就没(méi)有停止过对用户(hù)数据的深(shēn)度(dù)挖掘。要(yào)想(xiǎng)提取出有用的(de)信息(xī),仅提取关(guān)键词、统计词频等是远远不够的,必须对用户数据(尤其(qí)是发言、评论等)进行语义上的理解。另外,利用离线大数据统(tǒng)计(jì)分析的方法(fǎ)进行NLP任务的研(yán)究是目前非常有潜力的一种研究范式,尤其是(shì)谷歌、推特、百度等(děng)大公司在这类应用上的成功经验,引领了目前大数据研究的浪潮。
NLP是为各类企业及开发(fā)者提供的用于(yú)文本分(fèn)析及挖(wā)掘的核心工具,已经广(guǎng)泛应用在电商、金融、物流、医疗、文化(huà)娱乐等行业(yè)客户的(de)多项业(yè)务中。它可帮助用(yòng)户搭(dā)建内(nèi)容搜索、内容推荐、舆情识别及(jí)分析(xī)、文本结构化、对话机器人等智能(néng)产品,也能(néng)够通过合作,定制(zhì)个(gè)性化的解决方案。由于理解(jiě)自(zì)然语言,需要关于外在世界的广泛知识以及运用操(cāo)作这些知识的能力(lì),所(suǒ)以(yǐ)NLP也被视(shì)为解(jiě)决强AI的(de)核心问(wèn)题之(zhī)一,其未(wèi)来(lái)一般也因此密切结合AI发展,尤其是设计一个模仿人脑(nǎo)的(de)神经网络。
训练(liàn)NLP文(wén)本解析(xī)AI系(xì)统需要采集大量多源头数据(jù)集,对科学家来说是一项持续的挑战:需(xū)要使用最新的深(shēn)度学习模型,模(mó)仿人类大脑中(zhōng)神经元的(de)行为(wéi),在(zài)数百万甚至数十亿的注释(shì)示例中进行训练来(lái)持续改进。当下一种流行的NLP解决(jué)方案是预训练,它(tā)改进(jìn)了对未标记文本(běn)进行训练的(de)通(tōng)用语(yǔ)言模(mó)型,以执行特定任(rèn)务;它的思(sī)想就是,该模型的参数不再是随机初始化,而是(shì)先有一个任务进行训练得到一套模型参数,然后用(yòng)这套(tào)参数对模型进行初始(shǐ)化,再进行训练,以获得更好(hǎo)的预(yù)测性见解。
目前我们已经进入了以互联网为主要标志的海量(liàng)信息时代,这些信息大部(bù)分是(shì)以自(zì)然语言表示的。一方面,海量信(xìn)息(xī)也为计算机学习人类语言提供了更(gèng)多的(de)“素材(cái)”;另一方面,这也为NLP提(tí)供了更加宽广的应用(yòng)舞(wǔ)台。例如,作(zuò)为NLP的重要应用(yòng),搜索引擎逐渐成(chéng)为人(rén)们获(huò)取信息的重要工具,出现了以谷歌、百度等(děng)为代表的搜索引擎巨头;机器翻译也从实验室走入(rù)寻常百姓家;基(jī)于自然语言处理的中文输入法(如搜狗、微软(ruǎn)、谷歌等输入法)成为计算机用户的(de)必(bì)备工具;带(dài)有语音识别的计(jì)算机和手机也正大行其道,协助用户更有效地生活、工作和学习。
现在,NLP领域已经有了大量的人工(gōng)标注(zhù)知识,而(ér)深度学习可以通过(guò)有(yǒu)监(jiān)督学(xué)习得到(dào)相关的语义知识,这种(zhǒng)知识和人类总结的(de)知识应该存在某种对应关系,尤其是(shì)在一些浅层语义方面。因为人(rén)工标注,本(běn)质上已经给深度学习(xí)提供了(le)学习的目标;只是深度学习可(kě)以不(bú)眠不休地学习,这种逐步靠拢学习目(mù)标的(de)过程(chéng),可能远比人类总结过程来得更快更(gèng)好。这一点,从谷歌公司旗(qí)下(xià)DeepMind研究团队开发的(de)围棋软件AlphaGo短时间内连胜两位人类(lèi)围棋高手(shǒu)的事实(shí),似乎能够得到验证。
深度学习在(zài)NLP中的应用非(fēi)常广泛,可(kě)以说横扫NLP的各个应(yīng)用,从(cóng)底层的分词、语(yǔ)言模型、句法分析、语音识别等到高(gāo)层的语义理解、语用阐释、对话管理、知(zhī)识问(wèn)答等(děng)方面都几乎都有深(shēn)度(dù)学习的(de)模型,并且取(qǔ)得了不错的效果(guǒ)。有关研究已从传统的机器(qì)学习算法转(zhuǎn)变成更(gèng)有表现(xiàn)力的深度学习模型,如卷(juàn)积神经网络和回归神经(jīng)网络(luò)。不过,目前的深度学(xué)习技术(shù)还不(bú)具备理解(jiě)和使(shǐ)用自(zì)然语言所(suǒ)必需的概(gài)念抽象和逻辑推理能力,还有待(dài)今后进一步的(de)研究。
互联网搜(sōu)索引(yǐn)擎已经(jīng)有一段时间让人们使用(yòng)会话语言(yán)和术语(yǔ)来(lái)在线(xiàn)搜索事(shì)物。现(xiàn)在,谷歌(gē)公司的(de)云(yún)端(duān)硬盘用户已经可以使用这一功能。用户可以搜索存(cún)储在谷歌(gē)云端硬盘中的(de)文件(jiàn)和内容,就(jiù)像使(shǐ)用谷歌搜索提供的对云端硬盘内置NLP的(de)新支持一样。该功能使用户(hù)可以使用通常用词组表(biǎo)达的查询以(yǐ)及在(zài)实(shí)际(jì)对话中将要使用的查询(xún)来更轻松地找到(dào)所需的内容(róng)。谷歌(gē)公司(sī)在在线(xiàn)和移动搜索(suǒ)、移动应用程序以及(jí)GoogleTranslate等服(fú)务中广泛(fàn)使用NLP;该公司在(zài)这一领(lǐng)域(yù)的研究是为(wéi)提高机器阅读和理解人类语言能力所做(zuò)的更广泛努力(lì)的一部(bù)分。随着谷歌调整其算法,NLP应该(gāi)会随着时间(jiān)的(de)推移变(biàn)得更(gèng)好。
前不久,英国剑桥量子(zǐ)计算公司(CQC)宣布(bù),他们利(lì)用自然语言的“固有量子(zǐ)”结构,开(kāi)辟了一(yī)个全新(xīn)的可能应用(yòng)领(lǐng)域。其(qí)通过将语法句子翻译成量子线路,然后(hòu)在(zài)量子计算机上实现生成的程(chéng)序,并(bìng)实际执行问答。这是第一(yī)次在量子计算机(jī)上执行NLP。通过(guò)使(shǐ)用CQC的一(yī)流的(de)、平台无关的(de)可重定(dìng)目(mù)标编译器(qì)t|ket)™,这些程序在IBM量子计算机上成功执行(háng)并得到结果,整个突(tū)破朝(cháo)着实现“意义感知”和“语法(fǎ)知悉”的(de)NLP方(fāng)向迈出了有意义的一大步——这是计算机时代早期以来计算机科(kē)学家及计算(suàn)语言学家追寻的梦想(xiǎng)。
美国(guó)哈佛(fó)大学(xué)医学院的研究人员借助NLP技术最近开发出一种工(gōng)具,可以评估新(xīn)冠肺炎(COVID-19)患者的(de)病例、社(shè)交媒体和健康卫生(shēng)数据。他们(men)率先努力通过使(shǐ)用机(jī)器学习技术查看来自各种来(lái)源的数据和信息(xī)(包括患者记录、社(shè)交媒体和公共卫生数据(jù))来寻找新冠肺炎病毒的解决方案。借助NLP工具,他们还可以搜索有关新冠肺炎(yán)病毒的在线信息,并了(le)解(jiě)爆发的当前位置。另(lìng)外,研究人(rén)员(yuán)还利用NLP技术对新冠肺炎、药(yào)物(wù)和(hé)疫苗等(děng)密集展(zhǎn)开研究,同(tóng)时包括临床诊断与治疗以及流行病学研究等(děng)。
中国(guó)阿(ā)里(lǐ)达摩院的NLP研(yán)究团队提出了优(yōu)化模(mó)型Struct BERT,能让机器更好地掌握人(rén)类语法,加深对(duì)自然语言的理解。使用该模型(xíng)好比给机器内置一个“语法识别(bié)器”,使机器(qì)在面对(duì)语序错乱或不符合语法习惯(guàn)的词句时(shí),仍(réng)能准确理解并给出(chū)正确的表达和回应,大大提高(gāo)机器对词语、句子以及语言整体的理(lǐ)解力。这一技术已广泛使用于阿里旗下阿(ā)里(lǐ)小蜜、蚂蚁金服、优酷等业务。阿里达摩院的语言模型和阅读(dú)理解技术也被用于行(háng)业赋能,推进AI技术在医(yī)疗、电力、金(jīn)融等行业的落地。据悉,StructBERT模型在(zài)2020年(nián)被评为全球性能最强的NLP系统。
知名市场分析机构(gòu)Mordor Intelligence的(de)一份报告指出,在过去的几年中,深度学习架构和算(suàn)法在市场格局中(zhōng)取得了令(lìng)人瞩目的进(jìn)步,而(ér)语音分析解决方案正(zhèng)在主导着这一市场,因为传统的(de)基于(yú)文本的分析(xī)已不足以处理复杂的(de)业务问题(tí)。据估计(jì),2025年NLP市场规模将(jiāng)比2017年(nián)增长14倍(bèi),从30亿美元左右增长(zhǎng)到(dào)430亿美元以上。
总之(zhī),随着互联网的普及和海(hǎi)量信(xìn)息的涌现,作为AI领域(yù)的重(chóng)要研究课题和掌上明珠,NLP正在人们(men)的生活、工作、学习中扮演着越(yuè)来越重要的角色(sè),并将在科技进步与社会发展的过(guò)程中发挥越来越重要的作用。
文/林(lín)峰、李炎(作者单(dān)位(wèi)分别(bié)为美国波士顿大学工学院、普(pǔ)渡大学科技学院(yuàn))