科技让我们能够(gòu)随时通过手机联系到身处世(shì)界各地(dì)的人。它打破了距离与时间的(de)限(xiàn)制,无论是朋友、家人,还是(shì)商务伙(huǒ)伴(bàn),我们都能轻松自如地和他(tā)们建立联系。然而,直到现在,语言(yán)仍是我们面(miàn)对面沟(gōu)通的一个障碍。
尽管我们能够(gòu)向(xiàng)全球各地发送消(xiāo)息、拨打电(diàn)话或是视频(pín)聊天,但仍不能进行跨语(yǔ)言的流畅交(jiāo)谈。现在,国内领先的(de)智能学(xué)习公(gōng)司——有(yǒu)道,正利用AI来解决这(zhè)一问题(tí)。过去(qù)一年(nián)半的时(shí)间(jiān),Qualcomm持(chí)续与(yǔ)有道开展合作,通过终端侧的实时翻译来(lái)帮助人们打破语言的(de)限制、轻松自如地(dì)进(jìn)行沟通。
想象一下:你与(yǔ)海(hǎi)外客户进行(háng)电话(huà)会议。虽然你说(shuō)的是普通话(huà),但海外客户能够实时地听到标准的英文翻译,这(zhè)种无(wú)缝(féng)、流畅的(de)实时(shí)翻译十分令人惊叹(tàn)。但是,这样(yàng)的实时翻译对技术要求颇高,是此前技(jì)术无法实(shí)现的。Qualcomm骁龙865 5G移(yí)动(dòng)平台(tái)和其集成(chéng)的第五代Qualcomm人(rén)工智能引(yǐn)擎AI Engine,其AI性能是前代平台的2倍,能够支持实时离(lí)线翻译的(de)实(shí)现。事实上,在2019年12月举行的骁(xiāo)龙技术峰会期间,我们已经在现场(chǎng)展示(shì)过部分用例。
实时翻译(yì)是如何实现的
翻译功能(néng)通常(cháng)由CPU执(zhí)行,但对于特(tè)定应用(yòng)而言,CPU作为一个通用的性能模块,不能提供足够强大或(huò)实用的性能支持。Qualcomm骁(xiāo)龙(lóng)与(yǔ)有道(dào)合作,把翻译移植到(dào)更合适的处理模块——Qualcomm Hexagon DSP上,以实现端到端的时延和性(xìng)能优化。这样(yàng)做(zuò)的优势在于,能够(gòu)有效降(jiàng)低(dī)功(gōng)耗并(bìng)加大(dà)算力,以提高翻(fān)译(yì)准(zhǔn)确性,为实时翻(fān)译带来更好的体(tǐ)验。
无论(lùn)用户正在进行传统的语音通话还是网络(luò)通话(huà),当用户的语(yǔ)音进入骁龙865终端的麦克风并传入骁(xiāo)龙865集成的第五代Qualcomm AI Engine时,有道实时翻译就会马(mǎ)上(shàng)开始(shǐ)运行。在翻译的过程中,骁(xiāo)龙865会唤(huàn)醒(xǐng)Qualcomm传(chuán)感器中(zhōng)枢(Sensing Hub)来消除噪(zào)声和回声,然(rán)后启动Hexagon处理器(qì)进行神经网(wǎng)络(luò)处理,这主要包括以(yǐ)下三个阶段:
1、 自(zì)动语(yǔ)音识别(ASR)——以英文来(lái)举例,通过在(zài)Hexagon处理器上(shàng)运行卷积神经(jīng)网络(CNN),用户的(de)英文语音(yīn)可以被转(zhuǎn)录为英文文(wén)字。
2、 神经网(wǎng)络(luò)机器(qì)翻译(NMT)——接下来,英文文字能够通过神经网络机器翻译转换成中文文(wén)字(zì)。这不仅仅(jǐn)是逐字翻译,而是结合语(yǔ)句(jù)结(jié)构(gòu)的翻(fān)译。Hexagon处理器能够助力(lì)有道算(suàn)法更好的理解两种语言之间语句结构的(de)区别,以及词语(yǔ)在(zài)不同语境中可能具有的不(bú)同含义。
3、 文字转(zhuǎn)语(yǔ)音——最后,神经网络(luò)机器翻译(yì)出的中文文字会转化为普通话语音。
值得关注的是,上述处理过程全部都能够在终端侧实(shí)时地进行,这(zhè)让跨语(yǔ)言(yán)交谈(tán)真正变(biàn)得轻松自(zì)如。
实(shí)时翻译的(de)未来
目(mù)前,有道实时翻译技术支持包括(kuò)普通话、英文在内的(de)多种语言(yán)。未来(lái),该技术甚至(zhì)可以扮演口译(yì)员的角色(sè),在人(rén)们面对面(miàn)交谈时进行翻译。
在5G技(jì)术的支持下,实时翻译将会以更具沉浸感的方式呈现在人们(men)的生活中。例如,由(yóu)新(xīn)一代无线通信和骁龙5G终端(duān)赋能的超(chāo)低时延技术能够在视频电话中(zhōng)支持面部识别,这带来的不仅(jǐn)仅只是声音同步(bù),而(ér)是逼(bī)真的口型(xíng)同步,对方就(jiù)连看起来(lái)也像是正(zhèng)在(zài)使用与用户相同(tóng)的语言进(jìn)行对话。
Qualcomm Technologies希望(wàng)帮助全世界进(jìn)行(háng)连接、计(jì)算和沟(gōu)通(tōng)。这也是为什(shí)么我们很高(gāo)兴能够与有道合作,并(bìng)打(dǎ)造能(néng)够帮助(zhù)人们克服(fú)语言障(zhàng)碍的技术。我们很荣幸可以与合作伙伴一起丰富用户体验(yàn),共同架起全(quán)世界沟通的桥(qiáo)梁。
Qualcomm骁龙、Qualcomm人工智能引擎AI Engine、Qualcomm Hexagon和Qualcomm传(chuán)感器中枢是Qualcomm Technologies, Inc.和/或其子(zǐ)公司的产品。