前言:
想要实现全人类之间的顺畅交流,一直都是一个遥不可及(jí)的美好期望,而(ér)人工智能的飞(fēi)速发(fā)展,让我们看(kàn)到了这一希望。
国内刚需明(míng)显提(tí)升(shēng)
在中国,从(cóng)事同传工作的,大多(duō)数是英语专业背景,精通全领域是充分而(ér)非(fēi)必要条件(jiàn)。而面对涉及医疗、数学(xué)和物理等领域的会议时(shí),同传人员并不能很好地将(jiāng)这些相关(guān)术语准地翻译。
当学(xué)术盲点(diǎn)变成了行业痛(tòng)点,以(yǐ)语音智能见长的科(kē)技公司(sī)便主动出击,抓住(zhù)了同声(shēng)传译这一细分市(shì)场的机遇,迭代到(dào)3.0版本的搜狗同传(chuán)便(biàn)是向这一细分(fèn)市场布(bù)局的开端。
机器(qì)同传的产品价值,主要体现在其致力于解决跨语言交流、跨(kuà)语言(yán)信息获取(qǔ)和(hé)语言表达的电子化记录(lù)等障(zhàng)碍。若要真正实现(xiàn)这三点(diǎn),不能单纯地把语(yǔ)音识别和机(jī)器翻译做嫁接,而(ér)需要一(yī)套完整的(de)有机系统。
portant;" />
语境(jìng)引擎=多模态+知识图谱
去年12月,基于语(yǔ)境引擎的搜狗同(tóng)传(chuán)3.0以多模态(tài)和自主学习为核心,加入视觉和思维能力,这是(shì)AI同传在(zài)加入诸如视觉AI、知识图谱等能力后的再(zài)度(dù)进化(huà)。
最新发布的搜狗同(tóng)传(chuán)3.0,内(nèi)核进化成为了语境(jìng)引擎。除了“语音信息+OCR”的结合方式,升级后的(de)产品,最大亮点(diǎn)是在“能听会看”的多模态基础(chǔ)上,注入(rù)了思考和推理能(néng)力,背后靠(kào)的是(shì)知识图(tú)谱(pǔ)的(de)加(jiā)持。
多模态同传,即(jí)AI获取(qǔ)信息的渠道(dào)不再是语音,还包含图像(xiàng)等(děng)其(qí)他内容。这种多模态的交互方式(shì)是(shì)搜狗一直坚信(xìn)的(de)趋势,也是与(yǔ)人(rén)最(zuì)自然的(de)一种交流方式。
“会看”,意味着同传(chuán)首次具备了视觉能力(lì)。“能理(lǐ)解会推理”,则意味着(zhe)同传具备了与人“共(gòng)情”的能力。
portant;" />
基于语境引擎开发(fā)的(de)搜(sōu)狗同传3.0为演讲者构建了个(gè)性(xìng)化(huà)的认知语(yǔ)境(jìng),能够跟随演讲者一起“思考”,无疑是AI同传领域的(de)又一(yī)大技术创新。
可以像人(rén)类一样,从语音和图像中获取信息,不仅会听,还能同(tóng)时看图、查资料,从而提(tí)高了同声传译的准确性,在(zài)AI同传落地应(yīng)用中属首创。
尤其是面对专有名词、专业术语较多(duō)的场景,相比(bǐ)传统只依赖语音的技术(shù),针对(duì)PPT内容(róng)将翻译的正确率提升了40.3%。
portant;" />
陈伟认(rèn)为,多(duō)模态技术是未来人机交互的发展方向。从搜狗同传的技(jì)术升级(jí)之(zhī)路中(zhōng),我们也可以看出搜狗下一步(bù)的计(jì)划。
据陈伟介绍(shào),搜狗同传3.0相对于上一代(dài)产(chǎn)品主要有三方面能力的提(tí)升:
更加接近自然,从单纯的语(yǔ)音识别(bié)到语音+图像,新的方法模拟了人工(gōng)同传(chuán)的工作方(fāng)式,增加(jiā)视觉和大脑扩(kuò)散知识点(diǎn)的功能,拥有更为复(fù)杂的感知系(xì)统。
更加专业,此前(qián)的(de)AI同传模型使用通用数据,新的模型通过实时定(dìng)制知识增强能力,能够捕捉现场PPT内容补(bǔ)充演讲相关的(de)专业领域的知(zhī)识,并针对每一个演讲进行模型定制,提升同传(chuán)效果。
portant;" />
搜狗同传的技术迭(dié)代之路
2016年(nián)11月(yuè)推出(chū)的搜狗同传1.0通用语音同传是(shì)首个商用(yòng)机器同传产品,实现了语(yǔ)音同传(chuán)的功能。
2018年,搜狗同传2.0集成TTS,首(shǒu)次实现语音到语音同(tóng)传,并可(kě)根据用户(hù)语料实时定制(zhì),同(tóng)时它还用上了首个英译中同传引擎(qíng)。
到3.0,搜狗(gǒu)同传已经是一款(kuǎn)业内(nèi)首创的多模态+自主学(xué)习的同传产品,能听、会(huì)看(kàn),能理解、会推理是它的(de)特点(diǎn),同(tóng)时增加了实时捕捉PPT内(nèi)容(róng)的功能(néng)。
搜狗1.0时(shí),输(shū)入仅(jǐn)是语(yǔ)音,2.0开始做语(yǔ)音+个(gè)性化,以及(jí)说话(huà)人的语境背景(jǐng)输(shū)入(rù);3.0加入(rù)了知(zhī)识图谱,把语音、视觉等信息作为(wéi)语音识别的(de)输入。现(xiàn)在,业(yè)内(nèi)技术普遍介于1.0和2.0之间,而搜狗依靠图(tú)谱方式,已(yǐ)经率先(xiān)进(jìn)入3.0时代。
2.0时代,搜狗同传会首(shǒu)先对文本进行规则化,让文(wén)本变得流利,丢(diū)弃一些语义词(cí)和停(tíng)顿词(cí)等,但会(huì)遇到(dào)延时很大(dà)的(de)问题。
在3.0时代,搜狗同传加入了语义(yì)单元,识别判断一句话为独立的一个单元(yuán),系统(tǒng)可以在讲(jiǎng)话者说(shuō)话的(de)同(tóng)时可以立(lì)即(jí)上屏,降低同传(chuán)系统(tǒng)的延迟。
portant;" />
机器翻(fān)译(yì)与人工之间的差距在拉近
机器翻译的历史可能比大多(duō)数人想象中都要(yào)久远,1954年初,乔治(zhì)城大学的实验(yàn)的一台电脑成功将四十多条俄文句子自动翻译成英文(wén),这(zhè)一事件成为机器翻(fān)译(yì)史中的一(yī)个里程碑,标志着现代(dài)机器翻译的开端。
60多年过去了,机器翻(fān)译产品已经走进(jìn)每个人的日常生活,在(zài)大型会(huì)议(yì)等场景下(xià)被广泛采(cǎi)用。
虽(suī)然(rán)翻译(yì)效果仍有待提高,但(dàn)机器翻译(yì)已经成为提(tí)高翻译效率不可或缺的工具,并催生了(le)一大批从(cóng)事AI翻译研究的企业,国内有搜狗、腾讯、科大讯飞等,国外有谷(gǔ)歌、微软等。
翻译领域(yù)有些工作(zuò)是有重复性的,包括同传领域,机器在某些方面会优于人工,比如知识面、领域知识的(de)拓(tuò)展性上,机(jī)器比真人的知识(shí)面更广阔,并(bìng)能(néng)够快速查询背后海(hǎi)量的知(zhī)识体系,这比真人(rén)在(zài)某些领域的翻译上的准确率更高。
在支持了上(shàng)千(qiān)场会议之后,他们发现从成本上来看,机器翻译的(de)成本一定是低于人工的,且边际成本会随着使用量增加越来越低。
与人相比(bǐ),机器翻(fān)译成本更低,需要支(zhī)持的设备(bèi)也更少(shǎo),一台笔记本,一(yī)条(tiáo)视频线、一条音频线,连上就可以工作。
机(jī)器同传在未来的地位
从机器(qì)同传的流(liú)程来看,当机(jī)器视觉捕捉(zhuō)到核心关(guān)键词(cí)之后(hòu),会根据搜(sōu)狗的知识图谱技术,把相关的词(cí)汇以及专业领域相关(guān)的词语拓(tuò)展出来,作为(wéi)语音识别和翻译的加强。
未来,机器同传可向(xiàng)记者(zhě)采访、跨国办公会议、中英(yīng)文(wén)视(shì)频直播、字幕翻译等场(chǎng)景延展。这些(xiē)应用场景最主要的(de)挑战,是怎(zěn)么保证机器(qì)同传的稳定(dìng)效(xiào)果,考验的(de)是采集设备、网络(luò)环境、识别能力等。
未来面(miàn)向(xiàng)人和(hé)机器交互过程中,一(yī)定是多模态(tài)的,搜狗(gǒu)提倡(chàng)的(de)技术主(zhǔ)张,使机器同传和同(tóng)类产品(pǐn)拉开了一代之差(chà)。他们还是以同传为(wéi)主,搜(sōu)狗(gǒu)已经从语(yǔ)音跨到了多模态,并(bìng)把(bǎ)对于(yú)知识和语音的理解放(fàng)进去,使同传开始具(jù)备一定的(de)认知能(néng)力。
而(ér)搜狗在AI语音商业化的进程,最终的(de)指向还是消费者端。未来各(gè)种各样的场(chǎng)合(hé)都(dōu)可能用到搜狗同传的技术,通过同(tóng)传打(dǎ)磨(mó)的(de)能力也可以反向(xiàng)用于C端产品(pǐn)。
一直以来,人工智(zhì)能技(jì)术只(zhī)能在展示在实验室中,随着深度学习(xí)等技术的研究成熟,人(rén)工(gōng)智能技(jì)术(shù)加持的产品也逐渐(jiàn)开始落地。
多模态(tài)技(jì)术未来发展
很多公司都意识(shí)到多模态技术重要性,并(bìng)将研究成果落地(dì)到(dào)各种应用中,比如腾讯(xùn)、优酷等视频网站(zhàn)平台,快手(shǒu)等短(duǎn)视频平(píng)台都将多模态技术(shù)应用于内容理解上,在获取(qǔ)用户和加强与用(yòng)户的互动交(jiāo)流上(shàng)起到了重要作用(yòng)。
目前关(guān)于多模(mó)态的研究课题(tí)还(hái)是要从产品和(hé)实际需求(qiú)倒推功能,这涉及到异构数(shù)据融合的(de)问题。
多模态表达,在(zài)语(yǔ)义上如何进行(háng)对齐,提取同一需求(qiú)的多模态特征,如何更好地跨越(yuè)语义的鸿沟,异构数据如何融合,都是多模态(tài)技(jì)术会遇到(dào)的问题。
随着精(jīng)度的逐步提高,搜狗同传所采用的AI技术,未来还将有更广阔的(de)的应用(yòng)空间(jiān),赋予我们(men)更(gèng)多(duō)的可能性。比(bǐ)如,实时私人翻译乃至文学作品的译制,可以让我(wǒ)们足不出户,享受第一手国际作品的字幕(mù)体验。
而在跨国界、跨领域等项目合(hé)作(zuò)方面,逐(zhú)渐实(shí)现无缝对接,能够显著提高(gāo)整体的工程协作效率。
结尾:
当然必须要承认(rèn),无论是搜狗同传还是其他玩家,大家目(mù)前距离顶级同传的水准还有很(hěn)长的路要走,目前的机(jī)器同传能力(lì)和顶级人工同(tóng)传相比,仍存在不小(xiǎo)的(de)差距(jù)。