乐动网页版_乐动(中国)

前言：

想要实（shí）现全人类之（zhī）间的顺畅交流，一直（zhí）都是一个遥（yáo）不可及的美好（hǎo）期望，而人工智能的（de）飞（fēi）速（sù）发展，让我们（men）看到（dào）了（le）这一希望。

国内（nèi）刚需明（míng）显提升

在（zài）中国，从事同传（chuán）工作的，大（dà）多数是英语专业背景，精通全领域是充（chōng）分而非必要（yào）条件。而面对涉及医疗、数学和（hé）物理（lǐ）等（děng）领域（yù）的会议时，同传人员（yuán）并不（bú）能（néng）很好地将这些相关术语准（zhǔn）地翻译。

当学术盲点变成了行业痛点，以语音智能见长的（de）科技公司（sī）便主（zhǔ）动出击，抓住了同（tóng）声传译这一细（xì）分市（shì）场的机遇（yù），迭代（dài）到3．0版本的搜狗同传便是向（xiàng）这一细分市（shì）场布局的开（kāi）端。

机器同传的产（chǎn）品价值，主要体（tǐ）现在其致力于解决跨语言交（jiāo）流、跨语言信息获取和语言表达的电（diàn）子化（huà）记录等障碍。若要（yào）真正实现这三点，不（bú）能单纯地把语（yǔ）音（yīn）识别和机器翻译（yì）做嫁接，而（ér）需（xū）要一套（tào）完整（zhěng）的有机系统。

Ai芯天下丨观点丨陈伟：AI语音市场要（yào）靠3.0技术撬（qiào）动 portant;" />

语境引擎（qíng）＝多模态＋知识图（tú）谱（pǔ）

去（qù）年12月，基于语境引擎的搜狗同传（chuán）3．0以多模态和自（zì）主学习（xí）为核心，加入视觉和思维能（néng）力，这是AI同（tóng）传在加入诸如视觉AI、知识图谱等能力后的（de）再（zài）度进（jìn）化（huà）。

最新（xīn）发（fā）布的搜（sōu）狗同传3．0，内核进化成为了（le）语境引擎。除了“语音信息＋OCR”的结合方式，升级后的产品（pǐn），最大（dà）亮点是在“能听会看”的多模态基础（chǔ）上，注入了思考和推理能力，背后靠的（de）是知识图谱的加（jiā）持。

多模态同传，即AI获取信息的渠道不再是语（yǔ）音，还包含图（tú）像等其他内容。这种多模态的交互方式（shì）是搜狗一直坚信的趋势，也（yě）是与人最自然的一种交（jiāo）流（liú）方式。

“会（huì）看（kàn）”，意（yì）味着同传首次具备了视觉能力。“能（néng）理解会推理”，则意味（wèi）着同（tóng）传具备（bèi）了与人“共情”的能（néng）力。

Ai芯天下丨（shù）观点丨陈（chén）伟：AI语音市场要（yào）靠3.0技术撬动 portant;" />

基于语境引擎开发的搜狗同传3．0为演讲者构建（jiàn）了个性化的认知语境，能够跟随演讲者一起“思考”，无疑是AI同（tóng）传领域的又一（yī）大技（jì）术创（chuàng）新（xīn）。

可以像人类一样，从语（yǔ）音和图像（xiàng）中获取信（xìn）息，不仅会（huì）听，还能同时看图、查（chá）资料，从而提高了同声传译的准确（què）性，在（zài）AI同传落地应用（yòng）中属首创（chuàng）。

尤（yóu）其（qí）是面（miàn）对专有名词（cí）、专业术语较多（duō）的场景，相（xiàng）比传（chuán）统只依赖（lài）语音的技（jì）术，针对PPT内容将翻译的正确率提升了40．3％。

Ai芯天下丨（shù）观点丨陈伟：AI语音（yīn）市场要靠3.0技术（shù）撬动 portant;" />

陈（chén）伟认为，多模态技术是未来人（rén）机交（jiāo）互的发（fā）展方向。从搜狗同传的技术升级之路中，我们（men）也可以看出搜（sōu）狗下一步的计划（huá）。

据（jù）陈（chén）伟介绍（shào），搜狗同传3．0相（xiàng）对于上一代产品主要有三方面能力的提（tí）升：

更加接（jiē）近（jìn）自然，从单纯的（de）语（yǔ）音识（shí）别到语音＋图像（xiàng），新的方法模拟了人工同（tóng）传的工作方式，增加视（shì）觉和（hé）大脑扩散知识点的功能，拥有更为复杂的感知系统。

更加专业，此前（qián）的（de）AI同传模型使用通（tōng）用数据，新的（de）模型通过实（shí）时（shí）定制知识增强能力，能够捕捉（zhuō）现场（chǎng）PPT内（nèi）容补充演（yǎn）讲相关的专业领（lǐng）域的知识，并针对每（měi）一个演讲进行模型（xíng）定制，提升同传效果。

Ai芯天下（xià）丨观点丨（shù）陈（chén）伟：AI语音（yīn）市场要（yào）靠3.0技术撬动 portant;" />

搜狗同传的技术（shù）迭代之路（lù）

2016年（nián）11月推出的搜狗同传1．0通用语音同传是首个商用（yòng）机（jī）器同传产品，实现了语（yǔ）音同传的功能。

2018年（nián），搜狗（gǒu）同传2．0集（jí）成（chéng）TTS，首（shǒu）次（cì）实现语音（yīn）到语音同传，并可根据用户（hù）语料实时定制，同时它还用上了（le）首个（gè）英译中同传引（yǐn）擎。

到3．0，搜狗同传已经是一款业内首（shǒu）创（chuàng）的多模态（tài）＋自主学习（xí）的同传产品，能听、会看（kàn），能（néng）理解、会推（tuī）理是它的特（tè）点，同时增加了实时捕捉PPT内（nèi）容的功能（néng）。

搜狗1．0时，输入仅是（shì）语音（yīn），2．0开（kāi）始做语音＋个性化，以及说（shuō）话人的语境背景输入；3．0加入了知识图谱，把语音（yīn）、视觉等信息作为语音识别的输入（rù）。现在，业内技术（shù）普（pǔ）遍介于1．0和2．0之间（jiān），而搜狗依靠图（tú）谱（pǔ）方（fāng）式，已经率（lǜ）先进入3．0时代。

2．0时代，搜狗同传（chuán）会首先对文本进行规则化，让（ràng）文（wén）本变得流利，丢弃一些（xiē）语义（yì）词和停顿词等，但会遇到（dào）延时很大的问题。

在3．0时代（dài），搜狗同传加（jiā）入（rù）了语义单元，识别（bié）判断一句话为独（dú）立的（de）一个单（dān）元，系（xì）统可（kě）以在讲话者说话的同时可以立即上屏（píng），降低同传（chuán）系统的延迟。

Ai芯天下丨观点丨（shù）陈伟：AI语音（yīn）市场要靠3.0技术撬动 portant;" />

机（jī）器翻译与人工之（zhī）间的差距在拉近

机器（qì）翻译的（de）历（lì）史可能比大（dà）多数人（rén）想象中（zhōng）都要久远，1954年初，乔治城大学的实（shí）验的一台电脑（nǎo）成功将四（sì）十（shí）多（duō）条俄文句子自动翻译成（chéng）英文（wén），这一事件成（chéng）为机器翻（fān）译史中的一个（gè）里程碑，标志着现代机器（qì）翻译的开端。

60多年过去了，机器（qì）翻译产品（pǐn）已经走（zǒu）进每个（gè）人的日常生活，在大型会议等场景下被广泛采（cǎi）用。

虽然翻译效果仍（réng）有待提高，但机（jī）器翻译（yì）已（yǐ）经成为提（tí）高翻译（yì）效率不（bú）可或缺（quē）的工具，并催生了一大批从（cóng）事（shì）AI翻（fān）译研究的企业，国（guó）内有搜狗、腾讯、科大讯飞等，国（guó）外有谷歌、微软等。

翻译领域有些工作是有重（chóng）复（fù）性（xìng）的，包（bāo）括同（tóng）传领域，机器在某些方面（miàn）会优（yōu）于人工，比（bǐ）如（rú）知（zhī）识面、领域知识的拓展性上，机器（qì）比（bǐ）真人的知（zhī）识面更（gèng）广阔（kuò），并能够快速查询（xún）背（bèi）后海量（liàng）的知识（shí）体系，这比真（zhēn）人在某些领域（yù）的翻译上的准确率（lǜ）更高。

在支（zhī）持了上千场会议（yì）之后，他们发现从成本上来看，机器翻译的成本一定是低于人工（gōng）的，且边际成本会随着（zhe）使用量增加（jiā）越来越低。

与人相比，机器翻译成本更低，需要支持（chí）的设备（bèi）也更少，一台笔记（jì）本，一条视频线、一条音频线，连上（shàng）就可以（yǐ）工（gōng）作。

机器同传在（zài）未来的地位

从机器（qì）同（tóng）传的流程来看，当（dāng）机器（qì）视觉捕捉到核心（xīn）关键（jiàn）词之（zhī）后，会根（gēn）据搜狗的（de）知识图（tú）谱技术，把相关的（de）词汇（huì）以及专业领域相关的词（cí）语拓（tuò）展出来，作为语音识别和翻译的（de）加强。

未来，机器同传可向记者采访（fǎng）、跨国办公（gōng）会（huì）议、中（zhōng）英文视频直播、字幕（mù）翻译等场景延展。这些应用场景最（zuì）主要的挑战，是怎么保证机器（qì）同传的稳定效果（guǒ），考验的（de）是采集设备、网络环境、识别能（néng）力等。

未来面向（xiàng）人（rén）和机器交互过程中，一定是多模态的，搜狗提倡的技术（shù）主张，使机器同传和同（tóng）类产品拉开了一代之差。他们还是以同传（chuán）为主，搜狗已经从（cóng）语音跨（kuà）到了多模态，并把（bǎ）对于知识和语音的理解放进去，使同传开始具备一（yī）定的认知能力。

而搜狗在AI语音商业化的进程（chéng），最终的指（zhǐ）向还是消（xiāo）费者端（duān）。未来各种（zhǒng）各样的场（chǎng）合都可能用到搜狗同传的技术，通过同传（chuán）打磨的能力（lì）也可以（yǐ）反向（xiàng）用（yòng）于C端产品。

一直以来（lái），人（rén）工智能（néng）技术只能在（zài）展示在实（shí）验室中，随（suí）着深（shēn）度学习等技术（shù）的（de）研（yán）究（jiū）成熟，人工智能技（jì）术加持的产品也逐渐开始落地。

多模态技术未来发展

很多（duō）公（gōng）司都意识到多模态技术（shù）重要性，并将研究成果落（luò）地到各种应用（yòng）中，比如（rú）腾讯（xùn）、优酷等视频网站平台，快手等短视频（pín）平台都将多模态技术应用于内容理解上，在获（huò）取用户和加（jiā）强与用户的互动交（jiāo）流上起到了重要（yào）作（zuò）用。

目前关于多模态的研究课（kè）题还是要从产品和实际（jì）需（xū）求倒（dǎo）推功（gōng）能，这涉及到异构数据融合（hé）的（de）问题。

多模态表达，在语义上如何进行对齐（qí），提取同（tóng）一需求的多模态特（tè）征（zhēng），如（rú）何更（gèng）好地跨（kuà）越语（yǔ）义的鸿沟，异（yì）构数据如何（hé）融合，都是多模态（tài）技（jì）术会遇到的问题。

随着精度的逐步提高，搜狗同传所采（cǎi）用的AI技术，未来还将（jiāng）有更广阔的的应（yīng）用空间，赋予我（wǒ）们更多的（de）可能性。比如，实时私人翻译（yì）乃至（zhì）文学作品的（de）译制，可以让我们足（zú）不出户（hù），享受第一手国际作品的字幕体验。

而（ér）在跨（kuà）国（guó）界、跨领域（yù）等项目合作方面，逐渐实现无缝对接（jiē），能够显著提（tí）高整体的工程协作效率。

结尾（wěi）：

当然（rán）必须要承认，无论是搜狗同传（chuán）还是其他玩家，大家（jiā）目前距离顶级同传（chuán）的水准还（hái）有很长（zhǎng）的路要走，目前的机器（qì）同传（chuán）能力和顶级人工同传相比，仍存在不（bú）小的差距。