对于AI而言,即将过(guò)去的2019年是一个硕(shuò)果(guǒ)累累的(de)年份。一方面,它正(zhèng)在以可见的速度走(zǒu)到我们(men)的身边、渗透到各行各业中(zhōng);另一方面(miàn),AI技术本身也一直处于高速更迭换代的过(guò)程中,支撑着各种(zhǒng)落地应用(yòng)成为现实。技术的进(jìn)化与多元的应用(yòng)场景相得(dé)益(yì)彰、相互促进,“智(zhì)能时代(dài)”几乎已经触手可及。
作(zuò)为国内人(rén)工智(zhì)能领域的领头者,百度一直在积极同步推动AI技术创新和(hé)产业智能化。2019年,百度(dù)AI技(jì)术多年积累和业(yè)务实践的集大成——百度(dù)大脑,在算法突破和计(jì)算(suàn)架构(gòu)升(shēng)级的基础(chǔ)上(shàng),实现AI算法、计算架构与应用场(chǎng)景的融合(hé)创新,成为“软(ruǎn)硬一体的(de)AI大生(shēng)产(chǎn)平(píng)台”,打通了人工智能产业化应用落地相关的全(quán)部流(liú)程,实现了AI技术的(de)标准化、自动化、模块化。由此(cǐ),企业和(hé)开(kāi)发者不用重复(fù)“造轮子”,能(néng)直接将AI应用在各个产业场景中,促进产业智(zhì)能化(huà)。百度也率先在业内提出“人(rén)工智能进入工业化(huà)大生产阶段”。
portant;" />
做行业的引领(lǐng)者,需要锐意创新的勇(yǒng)气。对百度而言,还有二十年(nián)如(rú)一日推动(dòng)技(jì)术进(jìn)步(bù)所积淀的实力与(yǔ)底气。那么,在(zài)这(zhè)个(gè)大跨步向“智能时代(dài)”迈步的一年中,百度在推(tuī)动(dòng)AI技(jì)术(shù)进步方(fāng)面(miàn)又给我们带来了(le)哪些(xiē)惊喜?让(ràng)我们走近看一看。
1、竞逐(zhú)人(rén)工智能皇冠上的(de)明珠:知识增强的语义(yì)理解框(kuàng)架ERNIE超越谷歌BERT
自然语言处(chù)理关(guān)乎智能体如何理解(jiě)人(rén)类的语言(yán)与文字、并在理解的(de)基础上进行人(rén)机智能交互,被称为(wéi)“人工智(zhì)能(néng)皇(huáng)冠上的(de)明珠”,其(qí)重要性显而易(yì)见。今年,在自然语言处理技术方(fāng)面,百度打造了(le)可持续学习的(de)知识增强语(yǔ)义(yì)理解框架ERNIE,通(tōng)过建模海量数据中的实体概念(niàn)等(děng)先验知识,学习真实世界的语义关系。这种融合知识的语义建模大幅(fú)增强(qiáng)了模型(xíng)的(de)语义表示能力,在(zài)共计(jì)16个中(zhōng)英(yīng)文自然(rán)语言处理(lǐ)任务(wù)上(shàng)效果(guǒ)超越了谷(gǔ)歌BERT和XLNet。近日,ERNIE更是在自然语(yǔ)言(yán)处理领域权威数据集GLUE中荣(róng)登榜首(shǒu),并刷新该榜单(dān)历史,超越了微软MT-DNN-SMART, 谷歌T5、ALBERT等(děng)一众国(guó)际(jì)顶级预(yù)训(xùn)练模(mó)型。在全球各国探寻AI关键技术(shù)的道路(lù)上,百度(dù)ERNIE代表中国AI科(kē)技占据(jù)了(le)举足轻重的一席之地。
portant;" />
2、方言、中英(yīng)混合,通通(tōng)不是问题:SMLTA加(jiā)持,语音识(shí)别准确率提升(shēng)15%-20%
语(yǔ)音识(shí)别方面,百度(dù)提出流式多级的截断注意力模(mó)型 SMLTA,这是国际上首(shǒu)次实现局部注意力建(jiàn)模超越整句(jù)的注意力模型(xíng),也是国(guó)际上首次实现在线语(yǔ)音大(dà)规模使用注意力模型。SMLTA在大幅提升识别(bié)速度的同(tóng)时,也(yě)提高了识别准(zhǔn)确率。在输(shū)入法有效产品相对准确率提升15%,音箱有效(xiào)产(chǎn)品相(xiàng)对准确率提升20%。借(jiè)助(zhù)SMLTA,百(bǎi)度(dù)输入(rù)法实(shí)现(xiàn)了(le)业界普遍认为较难实现的中英文(wén)混说识别(bié),在完全不影响中(zhōng)文语音输入准确(què)率(lǜ)的情况下,能进行高精准的中英文混(hún)合语(yǔ)音识输入。除此之外,方言与方言、方言(yán)与普通话的混合语音输入也完全不在话下。
portant;" />
3、仅需20句话就能录(lù)制你的专属(shǔ)声音:语音合成(chéng)Meitron让AI体(tǐ)验个性化起来
你可(kě)能已经习(xí)惯了“前方路口左转”这(zhè)样(yàng)的地图语音由一(yī)个标(biāo)准的女声发出,然而百度地(dì)图推出的“语音定(dìng)制”功(gōng)能,则可以让(ràng)你用(yòng)自己的声音、或者是(shì)自己想要(yào)的其(qí)他人的声音来帮你指挥方向(xiàng)。这(zhè)背(bèi)后是百度语音合(hé)成技术Meitron的功劳。针(zhēn)对现(xiàn)阶段语音合成方面(miàn)面临的风格迁移、音色(sè)模拟和情感拟人三大挑战(zhàn),百度(dù)的语音合成(chéng)技术 Meitron ,可以把声音中的音色、风格、情感等(děng)不同元素解耦分离,独(dú)立组合,灵活控制合成的声音,只需(xū)录制20句话,就可(kě)以制作(zuò)一个人的专属声音。基于此技(jì)术,百度上线了(le)全球首个地图(tú)语(yǔ)音定(dìng)制功能,为用户带来了前所未有的个性化体验。
portant;" />
4、向(xiàng)着“巴别塔”之巅前(qián)进(jìn):更高准确、更(gèng)低(dī)时(shí)延的机器同传
翻(fān)译为人类(lèi)重新建立(lì)交流的巴别塔,机器翻译则让无障碍沟通的门槛降得更低(dī)。在机器(qì)同(tóng)传领域,百度综合联合词向量解码、语(yǔ)篇翻译模(mó)型等(děng)新技术,实现(xiàn)高准(zhǔn)确、低时延(yán)的机器同传,并(bìng)发布了语音到语(yǔ)音的(de)机器同传系统:DuTongChuan(度同传),以及(jí)全球首个中文(wén)-英文演讲(jiǎng)场景语(yǔ)音翻译(yì)数据集(BSTC)。经(jīng)过真(zhēn)实测试(shì),机(jī)器同传效果(guǒ)媲美人类译员(yuán)。可以说,随时随(suí)地自由沟(gōu)通的梦想离(lí)我们越来越近。
portant;" />
5、换个“姿势”看(kàn)视(shì)频:基于知识图谱的视频语义理解能力
在今年的“Baidu Create 2019”百度AI开发者(zhě)大会上(shàng),百度CTO王海峰为大(dà)家展示(shì)了一(yī)段基于(yú)知识图(tú)谱理解音乐纪录片《大(dà)河唱(chàng)》的内容。影片中的(de)角色、人(rén)物关(guān)系、音乐种类(lèi)、取景地(dì)、影片主题等信息,都得到了(le)精准解析,在屏幕上(shàng)一一呈现给观众。这是融合了百(bǎi)度知识图谱技术的视(shì)频语义理解能力(lì),通过结合视觉(jiào)、语音和自然(rán)语言处理技术解析多模态信息,并与知识图谱(pǔ)的相关实体建立关(guān)联,通过计算和推(tuī)理,得到电影内容的结构化(huà)语义表示,从而理解电影中(zhōng)出现的角色、音乐(lè)和民(mín)间艺术等。还在因为记不住某部电影里纷繁复杂的的人物关(guān)系而头(tóu)疼?有知识的(de)AI来帮你梳理梳理呗。该技术目(mù)前已在百度视频(pín)搜索、推荐、内容生成等(děng)多个产品上线。
portant;" />
6、有(yǒu)温度(dù)的AI,从真人(rén)形象虚拟(nǐ)主播开始:实时(shí)合(hé)成(chéng)真人虚拟形(xíng)象在多(duō)个场(chǎng)景(jǐng)应用
百度的实时合成虚拟形象技(jì)术(shù),结合多模态嘴型生成、GAN、TTS等技术(shù),实现了业界(jiè)首个可以量产视频(pín)的(de)真(zhēn)人形象虚拟(nǐ)主(zhǔ)播(bō),同时具备自动化(huà)、平台化、实时(shí)计算、大(dà)规模(mó)应用和效果(guǒ)逼真等技术(shù)特点(diǎn),可以(yǐ)解决以往虚(xū)拟主播形象(xiàng)生硬、响应速度滞后、播(bō)报内容刻板等问题。该技(jì)术已经成功(gōng)应用于多个场景。例(lì)如,央视与(yǔ)百度合作打造(zào)AI虚(xū)拟主持人小灵,亮相央视2019五四晚会;澎湃新(xīn)闻(wén)与(yǔ)百度合作打造了第一个真人形象的虚拟主播早晚(wǎn)新闻(wén)栏(lán)目;浦发银行与百(bǎi)度合作打造了业内首(shǒu)个“金(jīn)融数字人(rén)”,有颜(yán)值、有情感、还(hái)有专业的银行知识,将升级银(yín)行客(kè)服体验。
portant;" />
7、让中国最好的AI跑在中国自主可控的芯片上:百度鸿鹄芯片发布(bù),百度昆仑云服务器上(shàng)线
AI的发(fā)展需(xū)要算力的支撑,当下AI领域精彩纷呈,算力(lì)的需求更是大规(guī)模上涨。而在算力层面,芯(xīn)片始终是受到关注的焦点。特别是在中国,开(kāi)发者(zhě)和企业能否用上自主可(kě)控的芯片,又让这一(yī)关注多了一层意义。今年,百度发布了(le)专为远场语音交互打造的百度(dù)鸿鹄(hú)芯片(piàn),其设计变(biàn)革了传统芯片设计方法,遵循“软件定(dìng)义芯(xīn)片(piàn)”的全新设计思路。同(tóng)时,它采用双核 HiFi4 架构(gòu),40nm 工艺,2.8M 大内存,在此硬件规(guī)格(gé)上,仅仅100mW 左右平均工作功耗,即(jí)可(kě)支持远场语(yǔ)音交互核心的阵列信(xìn)号处理和语音唤醒能力,将(jiāng)为车载语(yǔ)音交互、智能家(jiā)居(jū)等场(chǎng)景带来更大想(xiǎng)象力。而在12月,基于百度(dù)自主研发的AI加(jiā)速芯片(piàn)-KUNLUN1的百度昆仑云服务器也正(zhèng)式在百度智(zhì)能云上(shàng)线(xiàn)。百度昆仑(lún)云服务器(qì)与百度自主研发的产业(yè)级深度学习开(kāi)源平台飞桨(jiǎng)深度(dù)适配(pèi),支持(chí)知识增强(qiáng)语义理解框架ERNIE等完全自主可控(kòng)的领先算法模(mó)型,让(ràng)中国最好的(de)AI跑在中国自己自主可控的芯片(piàn)之上(shàng)。
portant;" />
8、打造自动驾(jià)驶的智慧之眼:国内唯一的城市道路L4级纯视觉感知解决方案Apollo Lite
作为车(chē)辆与周围环境交互(hù)的纽带,感知系统是实(shí)现自动(dòng)驾驶的关键环节,可谓是自动驾驶系统的一(yī)双“眼睛”。在今年的CVPR 2019召(zhào)开期间,百度公开了(le)国内唯一的 L4 级(jí)自动驾驶纯视觉城(chéng)市道(dào)路闭环解决方案——百度 Apollo Lite。相比旋转式激光雷(léi)达感知方(fāng)案,视觉感知方案价(jià)格(gé)低且便于(yú)获得,为企业、开发者们提供了一个低价、优质的自动驾驶解(jiě)决方(fāng)案。
portant;" />
9、为自动(dòng)驾驶提供仿真测(cè)试保障:增强现实的(de)自动驾驶仿真系统(tǒng)登上《科学》子刊(kān)
安全(quán)性也是自动驾驶(shǐ)至关重(chóng)要(yào)的(de)一环(huán)。业界一般认为,一个可(kě)靠的、安全的自动驾(jià)驶系统必须能保证(zhèng)在苛刻的测试环境下安(ān)全行驶数亿公(gōng)里(lǐ)。按照这一指标,若完全使用(yòng)真实道路测试(shì),可能(néng)需(xū)要(yào)长达数十年。基(jī)于计算机视觉和AR技术,百度开发了一种增强现实的自动驾驶仿真系统(tǒng)(AADS),为自动驾驶车辆提供更为可靠且廉价(jià)的仿真模拟(nǐ)方法,兼顾(gù)自动驾驶系统测试(shì)的安(ān)全性的同(tóng)时,提(tí)升测试效果并极大地(dì)缩短(duǎn)测试时间。该系(xì)统(tǒng)相较(jiào)于现有仿真系统,在(zài)真实感、扩展性等方面都实现了突破性的技术进展,并(bìng)发表于《科学》杂志《机器人学(xué)》子刊。
portant;" />
10、迈向未来计算新世界:“量脉”实(shí)现量子软硬件连接
最后(hòu)一项关乎未来。量子计算被认为是未来计(jì)算技术的心脏。2019年,百度研发出国际领先、国内第一的(de)云(yún)上量子脉冲系统“量脉(mò)”,可将量子计(jì)算(suàn)软件指(zhǐ)令(lìng)(逻辑门)转换成控制量(liàng)子硬件的脉冲(chōng)序列,算(suàn)法性(xìng)能较(jiào)同类工(gōng)具实(shí)现成倍级别的(de)提升,是实现量子软硬件连接的关(guān)键桥(qiáo)梁(liáng)。
portant;" />
以(yǐ)上的十大技术创新,只是百度诸(zhū)多技术成果的冰山一(yī)角(jiǎo)。时代在继(jì)续向前发展,百度推动技术创新的步履从不曾停歇。通过不断(duàn)推动技术进步,百度还将为人工智能(néng)产业(yè)和社会的发展(zhǎn)贡献更大的力量。未来还(hái)会有哪些精彩?让我们拭目(mù)以(yǐ)待。