银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版

前言：

想要实现全人类之间的顺畅交流，一直都是一个遥不可及（jí）的美好期望，而（ér）人工智能的飞（fēi）速发（fā）展，让我们看（kàn）到了这一希望。

国内刚需明（míng）显提（tí）升（shēng）

在中国，从（cóng）事同传工作的，大多（duō）数是英语专业背景，精通全领域是充分而（ér）非（fēi）必要条件（jiàn）。而面对涉及医疗、数学（xué）和物理等领域的会议时（shí），同传人员并不能很好地将（jiāng）这些相关（guān）术语准地翻译。

当学（xué）术盲点（diǎn）变成了行业痛（tòng）点，以（yǐ）语音智能见长的科（kē）技公司（sī）便主动出击，抓住（zhù）了同声（shēng）传译这一细分市（shì）场的机遇，迭代到（dào）3．0版本的搜狗同传（chuán）便（biàn）是向这一细分（fèn）市场布（bù）局的开端。

机器（qì）同传的产品价值，主要体现在其致力于解决跨语言交流、跨（kuà）语言（yán）信息获取（qǔ）和（hé）语言表达的电子化记录（lù）等障（zhàng）碍。若要真正实现（xiàn）这三点（diǎn），不能单纯地把语（yǔ）音识别和机（jī）器翻译做嫁接，而（ér）需要一（yī）套完整的（de）有机系统。

Ai芯（xīn）天（tiān）下丨（shù）观点丨（shù）陈伟：AI语音市场要靠3.0技术撬动 portant;" />

语境（jìng）引擎＝多模态＋知识图谱

去年12月，基于语（yǔ）境引擎的搜狗同（tóng）传（chuán）3．0以多模态（tài）和自主学习为核心，加入视觉和思维能力，这是（shì）AI同传在（zài）加入诸如视觉AI、知识图谱等能力后的再（zài）度（dù）进化（huà）。

最新发布的搜狗同（tóng）传（chuán）3．0，内（nèi）核进化成为了语境（jìng）引擎。除了“语音信息＋OCR”的结合方式，升级后的（de）产品，最大亮点（diǎn）是在“能听会看”的多模态基础（chǔ）上，注入（rù）了思考和推理能（néng）力，背后靠（kào）的是（shì）知识图（tú）谱（pǔ）的（de）加（jiā）持。

多模态同传，即（jí）AI获取（qǔ）信息的渠道（dào）不再是语音，还包含图像（xiàng）等（děng）其（qí）他内容。这种多模态的交互方式（shì）是（shì）搜狗一直坚信（xìn）的（de）趋势，也是与（yǔ）人（rén）最（zuì）自然的（de）一种交流方式。

“会看”，意味着同传（chuán）首次具备了视觉能力（lì）。“能理（lǐ）解会推理”，则意味着（zhe）同传具备了与人“共（gòng）情”的能力。

Ai芯天下丨观点（diǎn）丨陈伟（wěi）：AI语音市场要靠3.0技（jì）术撬动 portant;" />

基于语境引擎开发（fā）的（de）搜（sōu）狗同传3．0为演讲者构建了个（gè）性（xìng）化（huà）的认知语（yǔ）境（jìng），能够跟随演讲者一起“思考”，无疑是AI同传领域的（de）又一（yī）大技术创新。

可以像人（rén）类一样，从语音和图像中获取信息，不仅会听，还能同（tóng）时看图、查资料，从而提（tí）高了同声传译的准确性，在（zài）AI同传落地应（yīng）用中属首创。

尤其是面对专有名词、专业术语较多（duō）的场景，相比（bǐ）传统只依赖语音的技术（shù），针对（duì）PPT内容（róng）将翻译的正确率提升了40．3％。

Ai芯天下丨观点丨陈伟：AI语（yǔ）音市场要（yào）靠（kào）3.0技（jì）术撬动 portant;" />

陈伟认（rèn）为，多（duō）模态技术是未来人机交互的发展方向。从搜狗同传的技（jì）术升级（jí）之（zhī）路中（zhōng），我们也可以看出搜狗下一步（bù）的计（jì）划。

据陈伟介绍（shào），搜狗同传3．0相对于上一代（dài）产（chǎn）品主要有三方面能力的提（tí）升：

更加接近自然，从单纯的语（yǔ）音识别（bié）到语音＋图像，新的方法模拟了人工（gōng）同传（chuán）的工作方（fāng）式，增加（jiā）视觉和大脑扩（kuò）散知识点（diǎn）的功能，拥有更为复（fù）杂的感知系（xì）统。

更加专业，此前（qián）的（de）AI同传模型使用通用数据，新的模型通过实时定（dìng）制知识增强能力，能够捕捉现场PPT内容补（bǔ）充演讲相关的（de）专业领域的知（zhī）识，并针对每一个演讲进行模型定制，提升同传（chuán）效果。

Ai芯天下丨观点丨陈伟：AI语音（yīn）市场要（yào）靠3.0技（jì）术（shù）撬动 portant;" />

搜狗同传的技术迭（dié）代之路

2016年（nián）11月（yuè）推出（chū）的搜狗同传1．0通用语音同传是（shì）首个商用（yòng）机器同传产品，实现了语（yǔ）音同传（chuán）的功能。

2018年，搜狗同传2．0集成TTS，首（shǒu）次实现语音到语音同（tóng）传，并可（kě）根据用户（hù）语料实时定制（zhì），同（tóng）时它还用上了首个英译中同传引擎（qíng）。

到3．0，搜狗（gǒu）同传已经是一款（kuǎn）业内（nèi）首创的多模态＋自主学（xué）习的同传产品，能听、会（huì）看（kàn），能理解、会推理是它的（de）特点（diǎn），同（tóng）时增加了实时捕捉PPT内（nèi）容（róng）的功能（néng）。

搜狗1．0时（shí），输（shū）入仅（jǐn）是语（yǔ）音，2．0开始做语（yǔ）音＋个（gè）性化，以及（jí）说话（huà）人的语境背景（jǐng）输（shū）入（rù）；3．0加入（rù）了知（zhī）识图谱，把语音、视觉等信息作为（wéi）语音识别的（de）输入。现（xiàn）在，业（yè）内（nèi）技术普遍介于1．0和2．0之间，而搜狗依靠图（tú）谱方式，已（yǐ）经率先（xiān）进（jìn）入3．0时代。

2．0时代，搜狗同传会首（shǒu）先对文本进行规则化，让文（wén）本变得流利，丢（diū）弃一些语义词（cí）和停（tíng）顿词（cí）等，但会（huì）遇到（dào）延时很大（dà）的（de）问题。

在3．0时代，搜狗同传加入了语义（yì）单元，识别判断一句话为独立的一个单元（yuán），系统（tǒng）可以在讲（jiǎng）话者说（shuō）话的（de）同（tóng）时可以立（lì）即（jí）上屏，降低同传（chuán）系统（tǒng）的延迟。

Ai芯天下丨观点丨（shù）陈伟：AI语音市场要靠3.0技（jì）术撬动（dòng） portant;" />

机器翻（fān）译（yì）与人工之间的差距在拉近

机器翻译的历史可能比大多（duō）数人想象中都要（yào）久远，1954年初，乔治（zhì）城大学的实验（yàn）的一台电脑成功将四十多条俄文句子自动翻译成英文（wén），这（zhè）一事件成为机器翻（fān）译（yì）史中的一（yī）个里程碑，标志着现代（dài）机器翻译的开端。

60多年过去了，机器翻（fān）译产品已经走进（jìn）每个人的日常生活，在（zài）大型会（huì）议（yì）等场景下（xià）被广泛采（cǎi）用。

虽（suī）然（rán）翻译（yì）效果仍有待提高，但（dàn）机器翻译（yì）已经成为提（tí）高翻译效率不可或缺的工具，并催生了（le）一大批从（cóng）事AI翻译研究的企业，国内有搜狗、腾讯、科大讯飞等，国外有谷（gǔ）歌、微软等。

翻译领域（yù）有些工作（zuò）是有重复性的，包括同传领域，机器在某些方面会优于人工，比如知识面、领域知识的（de）拓（tuò）展性上，机（jī）器比真人的知识（shí）面更广阔，并（bìng）能（néng）够快速查询背后海（hǎi）量的知（zhī）识体系，这比真人（rén）在（zài）某些领域的翻译上的准确率更高。

在支持了上（shàng）千（qiān）场会议之后，他们发现从成本上来看，机器翻译的（de）成本一定是低于人工的，且边际成本会随着使用量增加越来越低。

与人相比（bǐ），机器翻（fān）译成本更低，需要支（zhī）持的设备（bèi）也更少（shǎo），一台笔记本，一（yī）条（tiáo）视频线、一条音频线，连上就可以工作。

机（jī）器同传在未来的地位

从机器（qì）同传的流（liú）程来看，当机（jī）器视觉捕捉（zhuō）到核心关（guān）键词（cí）之后（hòu），会根据搜（sōu）狗的知识图谱技术，把相关的词（cí）汇以及专业领域相关（guān）的词语拓（tuò）展出来，作为（wéi）语音识别和翻译的加强。

未来，机器同传可向（xiàng）记者（zhě）采访、跨国办公会议、中英（yīng）文（wén）视（shì）频直播、字幕翻译等场（chǎng）景延展。这些（xiē）应用场景最主要的（de）挑战，是怎（zěn）么保证机器（qì）同传的稳定（dìng）效（xiào）果，考验的（de）是采集设备、网络（luò）环境、识别能力等。

未来面（miàn）向（xiàng）人和（hé）机器交互过程中，一（yī）定是多模态（tài）的，搜狗（gǒu）提倡（chàng）的（de）技术主（zhǔ）张，使机器同传和同（tóng）类产品（pǐn）拉开了一代之差（chà）。他们还是以同传为（wéi）主，搜（sōu）狗（gǒu）已经从语（yǔ）音跨到了多模态，并（bìng）把（bǎ）对于（yú）知识和语音的理解放（fàng）进去，使同传开始具（jù）备一定的（de）认知能（néng）力。

而（ér）搜狗在AI语音商业化的进程，最终的（de）指向还是消费者端。未来各（gè）种各样的场（chǎng）合（hé）都（dōu）可能用到搜狗同传的技术，通过同（tóng）传打（dǎ）磨（mó）的（de）能力也可以反向（xiàng）用于C端产品（pǐn）。

一直以来，人工智（zhì）能技（jì）术只（zhī）能在展示在实验室中，随着深度学习（xí）等技术的研究成熟，人（rén）工（gōng）智能技（jì）术（shù）加持的产品也逐渐（jiàn）开始落地。

多模态（tài）技（jì）术未来发展

很多公司都意识（shí）到多模态技术重要性，并（bìng）将研究成果落地（dì）到（dào）各种应用中，比如腾讯（xùn）、优酷等视频网站（zhàn）平台，快手（shǒu）等短（duǎn）视频平（píng）台都将多模态技术（shù）应用于内容理解上，在获取（qǔ）用户和加强与用（yòng）户的互动交（jiāo）流上（shàng）起到了重要作用（yòng）。

目前关（guān）于多模（mó）态的研究课题（tí）还（hái）是要从产品和（hé）实际需求（qiú）倒推功能，这涉及到异构数（shù）据融合的（de）问题。

多模态表达，在（zài）语（yǔ）义上如何进行（háng）对齐，提取同一需求（qiú）的多模态特征，如何更好地跨越（yuè）语义的鸿沟，异构数据如何融合，都是多模态（tài）技（jì）术会遇到（dào）的问题。

随着精（jīng）度的逐步提高，搜狗同传所采用的AI技术，未来还将有更广阔的（de）的应用（yòng）空间（jiān），赋予我们（men）更（gèng）多（duō）的可能性。比（bǐ）如，实时私人翻译乃至文学作品的译制，可以让我（wǒ）们足不出户，享受第一手国际作品的字幕（mù）体验。

而在跨国界、跨领域等项目合（hé）作（zuò）方面，逐（zhú）渐实（shí）现无缝对接，能够显著提高（gāo）整体的工程协作效率。

结尾：

当然必须要承认（rèn），无论是搜狗同传还是其他玩家，大家目（mù）前距离顶级同传的水准还有很（hěn）长的路要走，目前的机（jī）器同传能力（lì）和顶级人工同（tóng）传相比，仍存在不小（xiǎo）的（de）差距（jù）。