乐动网页版_乐动(中国)


    咨询热线(xiàn):021-80392549

    乐动网页版_乐动(中国) QQ在(zài)线(xiàn) 乐动网页版_乐动(中国) 企业微信
    乐动网页版_乐动(中国)
    乐动网页版_乐动(中国) 资讯 > 人工智能 > 正文

    陈伟:AI语音市场(chǎng)要(yào)靠(kào)3.0技术撬动

    2020/01/24ai网429

    前言:

    想要实(shí)现全人类之(zhī)间的顺畅交流,一直(zhí)都是一个遥(yáo)不可及的美好(hǎo)期望,而人工智能的(de)飞(fēi)速(sù)发展,让我们(men)看到(dào)了(le)这一希望。

    国内(nèi)刚需明(míng)显提升

    在(zài)中国,从事同传(chuán)工作的,大(dà)多数是英语专业背景,精通全领域是充(chōng)分而非必要(yào)条件。而面对涉及医疗、数学和(hé)物理(lǐ)等(děng)领域(yù)的会议时,同传人员(yuán)并不(bú)能(néng)很好地将这些相关术语准(zhǔn)地翻译。

    当学术盲点变成了行业痛点,以语音智能见长的(de)科技公司(sī)便主(zhǔ)动出击,抓住了同(tóng)声传译这一细(xì)分市(shì)场的机遇(yù),迭代(dài)到3.0版本的搜狗同传便是向(xiàng)这一细分市(shì)场布局的开(kāi)端。

    机器同传的产(chǎn)品价值,主要体(tǐ)现在其致力于解决跨语言交(jiāo)流、跨语言信息获取和语言表达的电(diàn)子化(huà)记录等障碍。若要(yào)真正实现这三点,不(bú)能单纯地把语(yǔ)音(yīn)识别和机器翻译(yì)做嫁接,而(ér)需(xū)要一套(tào)完整(zhěng)的有机系统。

    Ai芯天下丨观点丨陈伟:AI语音市场要(yào)靠3.0技术撬(qiào)动portant;" />

    语境引擎(qíng)=多模态+知识图(tú)谱(pǔ)

    去(qù)年12月,基于语境引擎的搜狗同传(chuán)3.0以多模态和自(zì)主学习(xí)为核心,加入视觉和思维能(néng)力,这是AI同(tóng)传在加入诸如视觉AI、知识图谱等能力后的(de)再(zài)度进(jìn)化(huà)。

    最新(xīn)发(fā)布的搜(sōu)狗同传3.0,内核进化成为了(le)语境引擎。除了“语音信息+OCR”的结合方式,升级后的产品(pǐn),最大(dà)亮点是在“能听会看”的多模态基础(chǔ)上,注入了思考和推理能力,背后靠的(de)是知识图谱的加(jiā)持。

    多模态同传,即AI获取信息的渠道不再是语(yǔ)音,还包含图(tú)像等其他内容。这种多模态的交互方式(shì)是搜狗一直坚信的趋势,也(yě)是与人最自然的一种交(jiāo)流(liú)方式。

    “会(huì)看(kàn)”,意(yì)味着同传首次具备了视觉能力。“能(néng)理解会推理”,则意味(wèi)着同(tóng)传具备(bèi)了与人“共情”的能(néng)力。

    Ai芯天下丨(shù)观点丨陈(chén)伟:AI语音市场要(yào)靠3.0技术撬动portant;" />

    基于语境引擎开发的搜狗同传3.0为演讲者构建(jiàn)了个性化的认知语境,能够跟随演讲者一起“思考”,无疑是AI同(tóng)传领域的又一(yī)大技(jì)术创(chuàng)新(xīn)。

    可以像人类一样,从语(yǔ)音和图像(xiàng)中获取信(xìn)息,不仅会(huì)听,还能同时看图、查(chá)资料,从而提高了同声传译的准确(què)性,在(zài)AI同传落地应用(yòng)中属首创(chuàng)。

    尤(yóu)其(qí)是面(miàn)对专有名词(cí)、专业术语较多(duō)的场景,相(xiàng)比传(chuán)统只依赖(lài)语音的技(jì)术,针对PPT内容将翻译的正确率提升了40.3%。

    Ai芯天下丨(shù)观点丨陈伟:AI语音(yīn)市场要靠3.0技术(shù)撬动portant;" />

    陈(chén)伟认为,多模态技术是未来人(rén)机交(jiāo)互的发(fā)展方向。从搜狗同传的技术升级之路中,我们(men)也可以看出搜(sōu)狗下一步的计划(huá)。

    据(jù)陈(chén)伟介绍(shào),搜狗同传3.0相(xiàng)对于上一代产品主要有三方面能力的提(tí)升:

    更加接(jiē)近(jìn)自然,从单纯的(de)语(yǔ)音识(shí)别到语音+图像(xiàng),新的方法模拟了人工同(tóng)传的工作方式,增加视(shì)觉和(hé)大脑扩散知识点的功能,拥有更为复杂的感知系统。

    更加专业,此前(qián)的(de)AI同传模型使用通(tōng)用数据,新的(de)模型通过实(shí)时(shí)定制知识增强能力,能够捕捉(zhuō)现场(chǎng)PPT内(nèi)容补充演(yǎn)讲相关的专业领(lǐng)域的知识,并针对每(měi)一个演讲进行模型(xíng)定制,提升同传效果。

    Ai芯天下(xià)丨观点丨(shù)陈(chén)伟:AI语音(yīn)市场要(yào)靠3.0技术撬动portant;" />

    搜狗同传的技术(shù)迭代之路(lù)

    2016年(nián)11月推出的搜狗同传1.0通用语音同传是首个商用(yòng)机(jī)器同传产品,实现了语(yǔ)音同传的功能。

    2018年(nián),搜狗(gǒu)同传2.0集(jí)成(chéng)TTS,首(shǒu)次(cì)实现语音(yīn)到语音同传,并可根据用户(hù)语料实时定制,同时它还用上了(le)首个(gè)英译中同传引(yǐn)擎。

    到3.0,搜狗同传已经是一款业内首(shǒu)创(chuàng)的多模态(tài)+自主学习(xí)的同传产品,能听、会看(kàn),能(néng)理解、会推(tuī)理是它的特(tè)点,同时增加了实时捕捉PPT内(nèi)容的功能(néng)。

    搜狗1.0时,输入仅是(shì)语音(yīn),2.0开(kāi)始做语音+个性化,以及说(shuō)话人的语境背景输入;3.0加入了知识图谱,把语音(yīn)、视觉等信息作为语音识别的输入(rù)。现在,业内技术(shù)普(pǔ)遍介于1.0和2.0之间(jiān),而搜狗依靠图(tú)谱(pǔ)方(fāng)式,已经率(lǜ)先进入3.0时代。

    2.0时代,搜狗同传(chuán)会首先对文本进行规则化,让(ràng)文(wén)本变得流利,丢弃一些(xiē)语义(yì)词和停顿词等,但会遇到(dào)延时很大的问题。

    在3.0时代(dài),搜狗同传加(jiā)入(rù)了语义单元,识别(bié)判断一句话为独(dú)立的(de)一个单(dān)元,系(xì)统可(kě)以在讲话者说话的同时可以立即上屏(píng),降低同传(chuán)系统的延迟。

    Ai芯天下丨观点丨(shù)陈伟:AI语音(yīn)市场要靠3.0技术撬动portant;" />

    机(jī)器翻译与人工之(zhī)间的差距在拉近

    机器(qì)翻译的(de)历(lì)史可能比大(dà)多数人(rén)想象中(zhōng)都要久远,1954年初,乔治城大学的实(shí)验的一台电脑(nǎo)成功将四(sì)十(shí)多(duō)条俄文句子自动翻译成(chéng)英文(wén),这一事件成(chéng)为机器翻(fān)译史中的一个(gè)里程碑,标志着现代机器(qì)翻译的开端。

    60多年过去了,机器(qì)翻译产品(pǐn)已经走(zǒu)进每个(gè)人的日常生活,在大型会议等场景下被广泛采(cǎi)用。

    虽然翻译效果仍(réng)有待提高,但机(jī)器翻译(yì)已(yǐ)经成为提(tí)高翻译(yì)效率不(bú)可或缺(quē)的工具,并催生了一大批从(cóng)事(shì)AI翻(fān)译研究的企业,国(guó)内有搜狗、腾讯、科大讯飞等,国(guó)外有谷歌、微软等。

    翻译领域有些工作是有重(chóng)复(fù)性(xìng)的,包(bāo)括同(tóng)传领域,机器在某些方面(miàn)会优(yōu)于人工,比(bǐ)如(rú)知(zhī)识面、领域知识的拓展性上,机器(qì)比(bǐ)真人的知(zhī)识面更(gèng)广阔(kuò),并能够快速查询(xún)背(bèi)后海量(liàng)的知识(shí)体系,这比真(zhēn)人在某些领域(yù)的翻译上的准确率(lǜ)更高。

    在支(zhī)持了上千场会议(yì)之后,他们发现从成本上来看,机器翻译的成本一定是低于人工(gōng)的,且边际成本会随着(zhe)使用量增加(jiā)越来越低。

    与人相比,机器翻译成本更低,需要支持(chí)的设备(bèi)也更少,一台笔记(jì)本,一条视频线、一条音频线,连上(shàng)就可以(yǐ)工(gōng)作。

    机器同传在(zài)未来的地位

    从机器(qì)同(tóng)传的流程来看,当(dāng)机器(qì)视觉捕捉到核心(xīn)关键(jiàn)词之(zhī)后,会根(gēn)据搜狗的(de)知识图(tú)谱技术,把相关的(de)词汇(huì)以及专业领域相关的词(cí)语拓(tuò)展出来,作为语音识别和翻译的(de)加强。

    未来,机器同传可向记者采访(fǎng)、跨国办公(gōng)会(huì)议、中(zhōng)英文视频直播、字幕(mù)翻译等场景延展。这些应用场景最(zuì)主要的挑战,是怎么保证机器(qì)同传的稳定效果(guǒ),考验的(de)是采集设备、网络环境、识别能(néng)力等。

    未来面向(xiàng)人(rén)和机器交互过程中,一定是多模态的,搜狗提倡的技术(shù)主张,使机器同传和同(tóng)类产品拉开了一代之差。他们还是以同传(chuán)为主,搜狗已经从(cóng)语音跨(kuà)到了多模态,并把(bǎ)对于知识和语音的理解放进去,使同传开始具备一(yī)定的认知能力。

    而搜狗在AI语音商业化的进程(chéng),最终的指(zhǐ)向还是消(xiāo)费者端(duān)。未来各种(zhǒng)各样的场(chǎng)合都可能用到搜狗同传的技术,通过同传(chuán)打磨的能力(lì)也可以(yǐ)反向(xiàng)用(yòng)于C端产品。

    一直以来(lái),人(rén)工智能(néng)技术只能在(zài)展示在实(shí)验室中,随(suí)着深(shēn)度学习等技术(shù)的(de)研(yán)究(jiū)成熟,人工智能技(jì)术加持的产品也逐渐开始落地。

    多模态技术未来发展

    很多(duō)公(gōng)司都意识到多模态技术(shù)重要性,并将研究成果落(luò)地到各种应用(yòng)中,比如(rú)腾讯(xùn)、优酷等视频网站平台,快手等短视频(pín)平台都将多模态技术应用于内容理解上,在获(huò)取用户和加(jiā)强与用户的互动交(jiāo)流上起到了重要(yào)作(zuò)用。

    目前关于多模态的研究课(kè)题还是要从产品和实际(jì)需(xū)求倒(dǎo)推功(gōng)能,这涉及到异构数据融合(hé)的(de)问题。

    多模态表达,在语义上如何进行对齐(qí),提取同(tóng)一需求的多模态特(tè)征(zhēng),如(rú)何更(gèng)好地跨(kuà)越语(yǔ)义的鸿沟,异(yì)构数据如何(hé)融合,都是多模态(tài)技(jì)术会遇到的问题。

    随着精度的逐步提高,搜狗同传所采(cǎi)用的AI技术,未来还将(jiāng)有更广阔的的应(yīng)用空间,赋予我(wǒ)们更多的(de)可能性。比如,实时私人翻译(yì)乃至(zhì)文学作品的(de)译制,可以让我们足(zú)不出户(hù),享受第一手国际作品的字幕体验。

    而(ér)在跨(kuà)国(guó)界、跨领域(yù)等项目合作方面,逐渐实现无缝对接(jiē),能够显著提(tí)高整体的工程协作效率。

    结尾(wěi):

    当然(rán)必须要承认,无论是搜狗同传(chuán)还是其他玩家,大家(jiā)目前距离顶级同传(chuán)的水准还(hái)有很长(zhǎng)的路要走,目前的机器(qì)同传(chuán)能力和顶级人工同传相比,仍存在不(bú)小的差距。

    关键词:




    AI人工智能网(wǎng)声明(míng):

    凡资讯(xùn)来源注明(míng)为其他媒体来源(yuán)的(de)信息,均为(wéi)转载自(zì)其他(tā)媒体,并不代表本网(wǎng)站赞同其(qí)观点,也不代表本网站对(duì)其(qí)真(zhēn)实性(xìng)负责(zé)。您若对该文章内容有任何(hé)疑问(wèn)或质疑,请立即与网站(www.bz.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网(wǎng)站将迅速给您回应并做处(chù)理。


    联系电话:021-31666777   新闻(wén)、技术文(wén)章投稿(gǎo)QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选资讯(xùn)更多

    相关(guān)资讯更多

    热门(mén)搜索(suǒ)

    工(gōng)博士人工智(zhì)能网
    乐动网页版_乐动(中国)
    扫描二维码关注微信
    扫码反馈

    扫一扫,反馈当(dāng)前页面

    咨询反馈
    扫码关注

    微信公众号

    返(fǎn)回顶部

    乐动网页版_乐动(中国)

    乐动网页版_乐动(中国)