银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版



    咨询热(rè)线:021-80392549

    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版 QQ在线 银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版 企业微信(xìn)
    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版
    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版 资讯 > 人工智能(néng) > 正文

    自然语言处理:人工智能领域的重要(yào)研究课(kè)题

    2021/07/29投稿(gǎo)717

    自(zì)然语言处理(lǐ)(英文Natural Language Processing,简称NLP)是人工智能(英文Artificial Intelligence,简称(chēng)AI)领域的重要研究课题,被誉(yù)为人工(gōng)智能技术的一个掌上明珠(zhū);它(tā)研究能实现人与计算(suàn)机(jī)之间用自然(rán)语言进行有效通信的各种(zhǒng)理论和方(fāng)法,涉及面(miàn)极为广(guǎng)泛。国(guó)际(jì)知名学者周海(hǎi)中(zhōng)先生曾经指出:“自然语言处理(lǐ)是(shì)极有吸(xī)引(yǐn)力(lì)的研究领域,它具有重大的理论意义和实用价值。”目前,NLP已成为推动科(kē)技发展的(de)强大动(dòng)力,并成为(wéi)世界各国(guó)综合(hé)国力(lì)竞争(zhēng)的焦点。

    自然(rán)语言(yán)处理:人工(gōng)智(zhì)能领域的重要研究(jiū)课题


    NLP主要研究能(néng)实现人与计算机之(zhī)间用自然(rán)语言进行有效(xiào)通信的(de)各种理论和方法(fǎ)。而用(yòng)自然语言与计算机进行通信,有着十分重要(yào)的实(shí)际应用意义,也有着革命性的理论意义。实现人机间自然语言通信(xìn)意味着要(yào)使计(jì)算机既能理解自然语言文(wén)本的意义,也能(néng)以自然语(yǔ)言文本(běn)来表达(dá)给定(dìng)的意图、思想等;前者称为自(zì)然(rán)语言理解(英文Natural Language Understanding,简称NLU),后者称为自然语言生(shēng)成(英文Natural Language Generation,简称NLG)。因此(cǐ),NLP大体包括了NLU和NLG两个部分;因(yīn)为(wéi)处理(lǐ)自然语言的(de)关键是要让计算机(jī)“理解”自然(rán)语言,所以通常把NLU视为NLP,也称为计算语言学。


    NLP是一(yī)门融语言(yán)学、计算(suàn)机科学、数学(xué)于一体(tǐ)的科学。因此,这一领域的研究将涉及自然语言,即人们日常使(shǐ)用的语言(yán),所以它与语言(yán)学的研究(jiū)有着密切的联系(xì),但又有重要的区(qū)别。NLP并(bìng)不是一般地研究自然(rán)语言,而(ér)是(shì)研制能有效(xiào)地实现自然(rán)语言通信的计(jì)算机系统,特(tè)别是其中的软件系统。因而它是计算机(jī)科学的(de)一部(bù)分。可以说,NLP是(shì)计(jì)算机科学(xué)、语言学、AI等关注计算机和人类语言之间的相互(hù)作用的(de)领域。目(mù)前,人们对AI的需求(qiú)也从计算(suàn)智(zhì)能、感知智能到了以NLP为代表的认知(zhī)智能的层(céng)面。没有成功的NLP,就不会有真正的(de)认知智(zhì)能。


    由于AI包括感(gǎn)知智能(néng)(比(bǐ)如图像(xiàng)识别、语言识别和(hé)手势识别等)和认知(zhī)智(zhì)能(主(zhǔ)要是语言理解知识(shí)和推理(lǐ)),而语言在认知(zhī)智(zhì)能起到最核心的作用(yòng)。如果能把语言问题解决了,AI最难(nán)的部分也就基本解决了(le)。美国微(wēi)软公司创始人比尔·盖茨先生曾经表(biǎo)示,“语言理解是人工(gōng)智能领域皇冠上的明珠”。前微软(ruǎn)公司(sī)全球执(zhí)行(háng)副总裁沈向(xiàng)洋先生也在公开演讲时说:“懂(dǒng)语言者得天(tiān)下……下(xià)一个十年,人(rén)工智(zhì)能的突(tū)破在自然语言的理解……人工智能(néng)对人类影(yǐng)响最为(wéi)深刻的就是自然语言方面”。由于理解自然语(yǔ)言需要关于外(wài)在世界的广泛(fàn)知识(shí)以及运(yùn)用操(cāo)作(zuò)这(zhè)些知识(shí)的能力(lì),所以NLP也被视(shì)为解决AI完备(AI-complete)的核心问题之一。可以说,NLP目前是AI领域的重要研(yán)究课题,对它的研究也是充满魅(mèi)力(lì)和挑战的。


    当前AI技术在认知智能层面仍面(miàn)临诸多(duō)挑战。如果我们有(yǒu)所推进的话,我们的(de)认知智能(néng)就会进一(yī)步提(tí)升,包括语言(yán)的理(lǐ)解水平(píng)、推理(lǐ)水平(píng)、回答问题能力、分析能力(lì)、解(jiě)决问(wèn)题的能力、写作(zuò)能(néng)力、对话能(néng)力等。然后再加上感知智能的(de)进步,声音、图象、文(wén)字的识别和生成的能力(lì),以(yǐ)及(jí)多模(mó)态(tài)文、图交叉的能力,通过文(wén)字可以生成图(tú)象,根据图象(xiàng)可以生成描述的文字等等,我们就可以推(tuī)进很多人类的应用,包括(kuò)搜索(suǒ)引擎、智能客服,包(bāo)括(kuò)教育、财政、电子商务(wù)等(děng)各个方面的应用;也可以把AI技术(shù)用在我们的(de)产业上,帮助产业(yè)实(shí)现数(shù)字化转(zhuǎn)型。


    最早的NLP研(yán)究工(gōng)作是机器(qì)翻(fān)译。1949年,美国知(zhī)名科学家沃伦·韦弗先(xiān)生首先提出了(le)机器翻译(yì)设计方案。20世纪60年代,许(xǔ)多(duō)科学家对机器翻译曾有大(dà)规模的研究工作,耗费了(le)巨(jù)额费用;但他们显(xiǎn)然(rán)是低估了自然语言的复杂(zá)性,语言处理的理论(lùn)和技(jì)术均不成熟,所以进展不大(dà)。当(dāng)时的主要做法(fǎ)是存储两种语言的单词、短语对应译法的大辞典(diǎn),翻译时一一(yī)对(duì)应,技(jì)术(shù)上只(zhī)是调整语言的同条(tiáo)顺序。但日常生活中(zhōng)语言的翻译远(yuǎn)不是(shì)如此简单,很多时候还要参(cān)考某句话前后的意思,需要上下文联系起来才(cái)能正确翻译——这(zhè)就是机译技术难度高之所在。


    大(dà)约(yuē)20世纪90年代开始(shǐ),NLP领域发生了巨大的变化。这种(zhǒng)变化有两个(gè)明显的特征:(1)对系统的输入,要求研制的NLP系统(tǒng)能处理大规模的真实文本,而(ér)不是如以(yǐ)前的研究性系统那样,只能处理很少的词条(tiáo)和典(diǎn)型句子。只有这(zhè)样,研制的系统才有真正(zhèng)的实用价值(zhí)。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然(rán)语言文(wén)本进行深层的理解,但要能从中抽取有用的(de)信息。同时,由于强调(diào)了“大规模”和(hé)“真实(shí)文本”,所(suǒ)以下(xià)面两方面的(de)基础性工作也得(dé)到了重(chóng)视和加强:(1)大规模真实语(yǔ)料库的研(yán)制。大规模(mó)的经过不同深度(dù)加工的真(zhēn)实文(wén)本的语料(liào)库,是研究(jiū)自然(rán)语言统计性质的基(jī)础;如(rú)果没有这样的语料(liào)库(kù),统计方(fāng)法(fǎ)只能是无源之水。(2)大(dà)规模、信(xìn)息丰富的词典(diǎn)的编制工作。因(yīn)此规模为几万,十几万(wàn),甚至几十万(wàn)词,含有(yǒu)丰富的信(xìn)息(如包含词的搭(dā)配信息)的计算机可用词典对NLP的(de)重要性是很明显的。


    系统(tǒng)的输入与输出(chū)这两(liǎng)个特征(zhēng)在NLP的诸多领域(yù)都有所体现,其发(fā)展直接促进了计算机自动检(jiǎn)索技术的出现和兴起。实际上,随着(zhe)计算机技术的不断发(fā)展(zhǎn),以海(hǎi)量计算为基础的机(jī)器学习、数据挖掘、数据建模等(děng)技(jì)术的表现(xiàn)也愈发优异。NLP之所以能够(gòu)度(dù)过“寒冬”,再次发展,也是因为计算机科学(xué)与(yǔ)统计科学的不(bú)断结合,才让人类甚至机器(qì)能够(gòu)不(bú)断从大量数据中发现“特征”并加以(yǐ)学习(xí)。不过要(yào)实(shí)现(xiàn)对自然语(yǔ)言真正意义上的理解,仅(jǐn)仅从(cóng)原始文本中(zhōng)进行学(xué)习是不够的,我们还需要新的方法和模型。


    目前存在的问题主要有两个方(fāng)面(miàn):一方面,迄今为止(zhǐ)的语法都限于(yú)分(fèn)析(xī)一(yī)个(gè)孤立的句子,上下(xià)文(wén)关(guān)系和谈话环境对本(běn)句的约(yuē)束(shù)和影(yǐng)响还缺乏系统的研究,因此(cǐ)分析歧义、词(cí)语省略、代词(cí)所(suǒ)指(zhǐ)、同(tóng)一句话在不(bú)同(tóng)场合或由(yóu)不同的人说出来所具(jù)有的不同含义等问题,尚无明确(què)规(guī)律可循,需要加强(qiáng)语义学和语用学的研究才(cái)能逐步解(jiě)决。另一方(fāng)面,人理解一(yī)个句子不是单凭语法,还运用了大量的(de)有关知识(shí),包括生活(huó)知识和专(zhuān)门知(zhī)识(shí),这些知识无法(fǎ)全部贮存在(zài)计算机里。因此一个书面(miàn)理解(jiě)系统(tǒng)只能建立在有限的词汇(huì)、句型和特定的主题范(fàn)围(wéi)内;计算机的贮存量和(hé)运转速度大(dà)大提高之后,才有可能适(shì)当扩(kuò)大范(fàn)围(wéi)。


    由于(yú)语言工程、认知科学(xué)等主要局(jú)限于实验(yàn)室,目前(qián)来(lái)看数据处理(lǐ)可能是NLP应用场景(jǐng)最多的一个发展方向(xiàng)。实际(jì)上,自从进入(rù)大数(shù)据时代,各大平台就没有(yǒu)停(tíng)止过对用户(hù)数据(jù)的深度挖掘。要想(xiǎng)提(tí)取出有用的信(xìn)息,仅提取(qǔ)关键词、统(tǒng)计词频等是远远不够的,必须(xū)对(duì)用户数据(尤其是发(fā)言、评论(lùn)等)进行语义上的理解。另外,利用离线大数据(jù)统计分析(xī)的方法进行(háng)NLP任务的研究是(shì)目前非常有潜力的一(yī)种研究范式,尤其是谷歌、推特、百度等大公司(sī)在这(zhè)类应(yīng)用(yòng)上的成功经验,引领了目前大数据研(yán)究(jiū)的浪潮。


    NLP是(shì)为各类企(qǐ)业及开发者提供的(de)用于文本分析(xī)及挖掘的核心工具,已经广泛应用在(zài)电商、金融、物流(liú)、医疗、文(wén)化娱乐等行业客(kè)户的多项业务中。它可帮(bāng)助用户搭建内容(róng)搜索、内容推荐、舆情识别及分析、文本结构化、对(duì)话机器人等智能(néng)产品,也能够通过(guò)合(hé)作,定(dìng)制个性化的解(jiě)决方案。由于理(lǐ)解自然语言,需要关(guān)于外在(zài)世界(jiè)的广泛(fàn)知(zhī)识以及运用(yòng)操作这些知识的能力(lì),所以(yǐ)NLP也被(bèi)视为解决强AI的核(hé)心问题(tí)之一,其未来一般也(yě)因(yīn)此密切结合AI发展,尤其是(shì)设计一个模仿人脑的神(shén)经网络。


    训练NLP文本解析AI系统需要采集大(dà)量多源头数(shù)据集,对科学家来(lái)说是一项持续的挑(tiāo)战(zhàn):需(xū)要使用最新的深(shēn)度学习(xí)模型,模仿人类(lèi)大脑(nǎo)中(zhōng)神经元的(de)行(háng)为,在数百万甚至数(shù)十亿的注释(shì)示例中进(jìn)行训(xùn)练来持续改进。当(dāng)下一(yī)种流行的NLP解决(jué)方案(àn)是预训练,它改(gǎi)进了对未标记文本进行训练的通用语言模(mó)型,以(yǐ)执行特定任(rèn)务;它的思想就是,该模(mó)型的参数不(bú)再是随机初始化,而是(shì)先有一个任务进行(háng)训练(liàn)得(dé)到一套(tào)模型参数,然(rán)后(hòu)用这套参数对模(mó)型进行初(chū)始化(huà),再进行训练,以获得更好的预测性见解。


    目前我们已经进入了以互联(lián)网(wǎng)为主要(yào)标志的海量信(xìn)息(xī)时代,这些信息大部分是以自然(rán)语言表示的。一方(fāng)面,海量(liàng)信息(xī)也为计算机学(xué)习(xí)人类语言提供了更多的“素材”;另(lìng)一(yī)方(fāng)面,这也为(wéi)NLP提供了更加宽广的应用舞台。例(lì)如,作为NLP的重要应用,搜(sōu)索(suǒ)引擎逐渐成为人们获取信息的重要工具,出现了以谷歌(gē)、百度等(děng)为代表的搜索引擎巨头;机器翻译也从实(shí)验室走入寻常百姓家;基于自然语言处理(lǐ)的中文输入法(如搜(sōu)狗、微软、谷歌等输入法(fǎ))成为计算机用户的必备工具;带(dài)有语音(yīn)识别的(de)计算机和手机也(yě)正大行其道,协助用户更有效地生活、工作和(hé)学习(xí)。


    现在,NLP领域已经有了大量的人工标(biāo)注知识,而深(shēn)度学习可(kě)以通过(guò)有监(jiān)督学习(xí)得到相关的语(yǔ)义知(zhī)识,这(zhè)种知识和人类总结的知识应该存在某种(zhǒng)对(duì)应关(guān)系,尤其是在一些浅层(céng)语义方(fāng)面。因为人工标注,本质上已经给深度学习(xí)提(tí)供了学习的(de)目标;只是(shì)深(shēn)度学习可以不眠不休地学习,这(zhè)种逐步靠拢学习(xí)目标(biāo)的过程,可能远比(bǐ)人类总结(jié)过程来得更快更好。这一点,从(cóng)谷歌公司旗下DeepMind研究团队开发的围棋软件AlphaGo短时(shí)间内连胜(shèng)两位人(rén)类围棋高手的事(shì)实,似乎能够得到验(yàn)证。


    深度学习在(zài)NLP中的应用非常广泛,可以说(shuō)横扫NLP的各个应用(yòng),从(cóng)底(dǐ)层(céng)的分词(cí)、语言模型、句法分析、语音(yīn)识别等到高层的语义理解、语用阐(chǎn)释(shì)、对话管理、知识问答等方面(miàn)都几(jǐ)乎都有深(shēn)度学(xué)习的模型,并且取(qǔ)得了不错的效果。有关研究已从传统的机器学习算(suàn)法(fǎ)转变成更有表(biǎo)现力的深度学习模(mó)型,如(rú)卷积神经网(wǎng)络和(hé)回归(guī)神经网络。不过,目前的深度学习技术还不(bú)具备理(lǐ)解(jiě)和(hé)使用自(zì)然(rán)语言所必需的概念抽象和逻辑推(tuī)理能(néng)力,还有(yǒu)待今后进(jìn)一步的研究。


    互联网搜索引擎已经有一(yī)段(duàn)时间(jiān)让人(rén)们使用会话语言和术语来在线搜索事物。现在,谷(gǔ)歌公司的(de)云端硬盘用户(hù)已(yǐ)经可(kě)以使用这一(yī)功能。用户可以(yǐ)搜(sōu)索存储在谷歌云端硬盘中的文件和内容,就像使用谷歌搜索提供的对云(yún)端硬盘内置NLP的新(xīn)支持一样。该功能使(shǐ)用户可(kě)以使用(yòng)通(tōng)常用词组(zǔ)表达(dá)的查询以及在实际对话中将要使(shǐ)用(yòng)的查询(xún)来(lái)更轻松(sōng)地找到所需的内(nèi)容。谷(gǔ)歌公司在在线(xiàn)和移动(dòng)搜索、移动应用程序以及(jí)GoogleTranslate等服务中广泛使(shǐ)用NLP;该公司在这一(yī)领域(yù)的研究是为提高机器阅读和理(lǐ)解(jiě)人类语言能力所做的(de)更广泛(fàn)努力的一部分。随着(zhe)谷歌(gē)调整其算法,NLP应该会(huì)随着时间的推移变得更好。


    前不久,英国(guó)剑桥量子计算公司(CQC)宣布,他们利用(yòng)自然语言的“固有量子”结构,开辟了(le)一(yī)个(gè)全(quán)新的可能(néng)应用领域。其通(tōng)过(guò)将语法(fǎ)句子翻译(yì)成量子(zǐ)线路(lù),然后在量子计(jì)算机上(shàng)实(shí)现生成的程序,并实际执行问答。这(zhè)是第一(yī)次在(zài)量子计算机上执行NLP。通过使用CQC的一流的(de)、平台无关的可(kě)重定目标编译器t|ket)™,这些程(chéng)序在IBM量子计算(suàn)机上(shàng)成功(gōng)执行并得到结果,整个突(tū)破朝着实现(xiàn)“意(yì)义感知”和“语法(fǎ)知悉”的NLP方向迈(mài)出了有意(yì)义的一大步(bù)——这(zhè)是计算(suàn)机时代早期以来计算机科学家及计算语言(yán)学家追寻的梦想(xiǎng)。


    美国哈佛大学医学院(yuàn)的研(yán)究人员借助NLP技术(shù)最近开发出一种工具,可以评估新冠肺(fèi)炎(COVID-19)患者的病例、社交媒体和(hé)健康(kāng)卫生数据(jù)。他们(men)率先努力通过(guò)使用机(jī)器学习技术查看来自(zì)各种(zhǒng)来源的数据和信(xìn)息(包(bāo)括患者(zhě)记录、社交媒体和(hé)公共卫生(shēng)数据(jù))来寻找新冠肺炎病毒的解决(jué)方案。借助NLP工具,他们(men)还可以搜索(suǒ)有关(guān)新冠肺炎病毒的在线信息,并了解爆(bào)发的当前位置。另外,研究人员还(hái)利用NLP技术(shù)对(duì)新(xīn)冠肺炎、药物和(hé)疫苗等密集展开研究,同时包括临床(chuáng)诊断(duàn)与治疗以及流行病学研究等。


    中(zhōng)国阿里(lǐ)达(dá)摩院的NLP研究团队提出了优化模(mó)型Struct BERT,能(néng)让机器更好(hǎo)地掌(zhǎng)握人(rén)类语法,加(jiā)深(shēn)对自然语言的理解。使用该模型好比给(gěi)机器内置一个“语法识别器”,使(shǐ)机(jī)器在面对语序(xù)错乱或(huò)不符合语法(fǎ)习惯的词句(jù)时,仍能准确(què)理解(jiě)并给出正确的表达和回应,大(dà)大(dà)提高机器对词语、句子以及语(yǔ)言整(zhěng)体的理解力。这一技术(shù)已广泛使用于阿里旗下阿里小(xiǎo)蜜、蚂蚁金服、优酷(kù)等业务。阿里达摩院的语言模型(xíng)和阅(yuè)读(dú)理解技术也(yě)被(bèi)用于行业赋能,推进AI技术在(zài)医疗(liáo)、电力(lì)、金融等行业的落地。据悉(xī),StructBERT模型在2020年被(bèi)评为(wéi)全球性能最强的NLP系统(tǒng)。


    知名市(shì)场(chǎng)分析机(jī)构(gòu)Mordor Intelligence的(de)一份报(bào)告指出,在过去的几(jǐ)年(nián)中,深度学习架构和算法在市场格局中取得了令(lìng)人瞩目的进步,而语音分析解决方案正在主导着这一市场(chǎng),因为(wéi)传统的基于文本(běn)的(de)分析(xī)已(yǐ)不足以(yǐ)处(chù)理复杂的业务(wù)问题。据估(gū)计,2025年NLP市场规模将比2017年增长14倍,从30亿(yì)美元左右增长到430亿美元以上。


    总之,随(suí)着互联网的(de)普及和海量信息的涌(yǒng)现,作为AI领(lǐng)域的重要研究课题和掌(zhǎng)上明珠,NLP正(zhèng)在(zài)人们的生活、工作、学习中扮演(yǎn)着(zhe)越来越(yuè)重要(yào)的角色,并将在科技进(jìn)步与社会发(fā)展(zhǎn)的过程(chéng)中发挥越来越重要的作用(yòng)。


    文/林峰(fēng)、李炎(作者单位分(fèn)别为美(měi)国波士顿大(dà)学工(gōng)学院、普渡大学科技学(xué)院)


    关键词:




    AI人工智能(néng)网声(shēng)明:

    凡资讯(xùn)来源注明为其他媒体来源的(de)信(xìn)息,均为转载自其他(tā)媒体(tǐ),并不代(dài)表本(běn)网站(zhàn)赞同其观点,也不代表本网站对其真实(shí)性负责。您若对(duì)该(gāi)文章内容(róng)有(yǒu)任何疑问或质疑,请立即(jí)与网(wǎng)站(www.chaoyang.maanshan.liaocheng.jixi.ww38.viennacitytours.com)联系,本网站将(jiāng)迅速(sù)给您(nín)回应并做处理。


    联系电话:021-31666777   新闻、技术文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选资讯更多

    相关资(zī)讯更多

    热门搜(sōu)索

    工博士人工智(zhì)能(néng)网
    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版
    扫描二维码关注微信
    扫码(mǎ)反(fǎn)馈(kuì)

    扫一扫,反(fǎn)馈(kuì)当前页(yè)面

    咨询反馈
    扫码关注

    微信公众(zhòng)号

    返回顶(dǐng)部

    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版

    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版