银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版



    咨询热线:021-80392549

    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版 QQ在线 银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版 企业(yè)微信(xìn)
    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版
    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版 资讯 > AI挖掘技术 > 正文

    自然语言(yán)处理入门教(jiāo)程

    2020/05/253513

    自然语言处理入门(mén)教程

    自然语言处(chù)理(NLP)是计算(suàn)机科学领域和人(rén)工智能领(lǐng)域中(zhōng)的(de)一个分支,它与计算机(jī)和人类之间使(shǐ)用自然(rán)语言进行互动密切相(xiàng)关。NLP的最终目标是使计算机能够像人类一样理(lǐ)解语言(yán)。它(tā)是(shì)虚拟助(zhù)手、语音识别、情感分(fèn)析、自动文本摘要、机器翻译等的驱动力(lì)。在这(zhè)篇文章中,你将学(xué)习到自然语言处(chù)理的基础知识,深入(rù)了(le)解到它的(de)一些技术,了解到NLP如(rú)何从深度学习的最新进展。

    1.简介

    自然语言处(chù)理(NLP)是计算机科学、语(yǔ)言学和机器学习的交叉点,它关注计算机与人类之间使用自然语言中(zhōng)的沟通(tōng)交(jiāo)流。总之(zhī),NLP致(zhì)力于让计算机能够理(lǐ)解和(hé)生成人类语言。NLP技术应用于多个领(lǐng)域,比如天猫精灵和Siri这样的语音助手(shǒu),还有机(jī)器翻译和文本过滤等。机器学习是受NLP影响最深远的领(lǐng)域之一,尤为(wéi)突出的是深度学习技术。该(gāi)领域分为以下三个部分:

    1.语音识别:将口语翻译成(chéng)文本。

    2.自然语(yǔ)言理解:计算机理解人类的能力。

    3.自然语言生成:计算机生成自然语言。

    2.为什么NLP很难

    人(rén)类语言(yán)有(yǒu)其特殊性。人类语言(yán)专门用于(yú)传达讲话者和写作者的意思(sī),即使小孩子能够很快学会,它依然是一个复杂的系统。它的另(lìng)一(yī)个显著之处在于它完全与符号(hào)有关。Chris Manning(斯坦福教授)表示,它是一个离散的、象征性(xìng)的、绝对的(de)信号系统,这意味着人们可以通过使用(yòng)不同的(de)方式传达相同的(de)含义,比如演说,手势,信号等。人类大(dà)脑对这些(xiē)符号的编码(mǎ)是持续的激活模式,在这个模式中(zhōng),符号通过声音(yīn)和视觉的连续信号实(shí)现传输。

    由于其(qí)复杂性,理解人类语言(yán)被认为是一项艰(jiān)巨(jù)的(de)任务。例如,在句子中排列单词有无数种不同(tóng)的方法。此(cǐ)外,一个单词可以有多种含义,并(bìng)且正确解释句子需要恰当的语境(jìng)信(xìn)息(xī)。每种语言或多或少都是(shì)独特且含糊的。比如:“The Pope’s baby steps on gays”,这句话(huà)显然有两(liǎng)种截然不同的解释,这是反(fǎn)映NLP中的困难之处的一个很好的例子。

    随着计算机(jī)对语言(yán)的(de)理解愈(yù)渐完美,将会产生可以处理互联(lián)网(wǎng)上全部(bù)信(xìn)息的人(rén)工智能(AI),继而产生强人工智能(AGI)。

    3.句法和语义分析

    句(jù)法分析和语义(yì)分析是理解自然语言(yán)的(de)两种主要方(fāng)法。语言是一(yī)组意义(yì)的语句,但是什(shí)么(me)使语(yǔ)句有意义(yì)呢?实际上,你可以将有效性分(fèn)为两类:句(jù)法和语(yǔ)义。术语(yǔ)“句(jù)法”是(shì)指(zhǐ)文(wén)本的语(yǔ)法结(jié)构,而术语“语义”是指由它表达的含义。但是,句法上正确的(de)语句不(bú)必在语(yǔ)义上正确(què)。只需(xū)看看下面的(de)例子(zǐ)。语句“cow kow supremely”在(zài)语法上是有效(xiào)的(主语(yǔ)-动词(cí)-副词(cí)),但(dàn)没(méi)有任(rèn)何意义。

    句法分析(xī):

    自然语言处理(lǐ)入门教程

    句法分(fèn)析,也称为(wéi)语法分析或解析,是通过遵循正式语法(fǎ)规则来分析自然(rán)语(yǔ)言的(de)过程。语法规(guī)则适用于单词和词组,而不是单个(gè)单(dān)词(cí)。语法分(fèn)析主要为文本分配语义结构。

    语(yǔ)义分析:

    我(wǒ)们(men)理解他(tā)人的(de)语言是(shì)一种无(wú)意识(shí)的过程,依赖于直觉和对语言本身的认识。因此,我们理(lǐ)解语(yǔ)言的方(fāng)式很(hěn)大程度上取决于意义和语境。计(jì)算机却不能依赖上述方法,需要采用不同的(de)途径。 “语义(yì)”这(zhè)个词是一(yī)个语言术语(yǔ),意思与意义或(huò)逻辑相近。

    因(yīn)此(cǐ),语义分析是理解单(dān)词(cí)、符号(hào)和语句结构的含义和解释的过程(chéng),这(zhè)使计(jì)算机能够以人类的方式理解部分涉及意义和(hé)语境的自然语言(yán)。为什么说(shuō)只能部分(fèn)理解呢?是因为语(yǔ)义分析是NLP中最棘手的部分之(zhī)一(yī),仍未完全(quán)解决。例如,语音识别技术已非常成(chéng)熟,并且(qiě)工作近(jìn)乎(hū)完美,但仍然缺(quē)乏在(zài)自然语言(yán)理解(例如语(yǔ)义)中的熟练程度(dù)。手机基本上可以理解我们所说(shuō)的(de)内(nèi)容,但通常(cháng)无法用它(tā)做任(rèn)何事情,因(yīn)为它不了解其背(bèi)后意义。

    4.理解文本的技巧

    下面我们将讨论多种用于(yú)自(zì)然(rán)语言处理的(de)现行技术。

    什(shí)么是解(jiě)析?首先(xiān),让我(wǒ)们看一下词(cí)典释义:

    解析—“将句(jù)子(zǐ)分解为其组成部(bù)分,并阐述各部分的(de)句法角(jiǎo)色。”

    实际(jì)上解(jiě)释(shì)的已经非(fēi)常到位,但它可以更全(quán)面(miàn)一些。解(jiě)析是指计算机对句子(zǐ)的形(xíng)式(shì)分析(xī),其结果是一(yī)个解析树(shù),这个解(jiě)析树可以可视化(huà)地显示句子成分之间(jiān)的句法关(guān)系,用于进一步(bù)处(chù)理(lǐ)和理解(jiě)。

    在下面你可以看(kàn)到句子“The thief robbed the apartment”的(de)解(jiě)析(xī)树,以及由它传达的(de)三(sān)种不同(tóng)信息类型的(de)描述。

    自然语言处(chù)理入(rù)门教程(chéng)

    我先(xiān)看单个单词正上(shàng)方的字(zì)母,它们(men)用(yòng)于显示(shì)每个单词(cí)的词性(名(míng)词(cí)-N,动词-V和限定(dìng)词-DT)。我们再看解(jiě)析树中更高的层级,一些单词进行层次分组组成短语(yǔ)。例(lì)如,“the thief”是一个名词短(duǎn)语(yǔ)(NP),“robbed the apartment”是一(yī)个动词(cí)短语(VP),这些短语一起形(xíng)成一(yī)个(gè)句子(S),在树中标记在更高(gāo)的层级。

    这些短语以(yǐ)名词为主体,包含一个或(huò)多个单词,可能还包含(hán)描述性词语、动词或副词,简言之,就是把(bǎ)把名词和与(yǔ)其相关的单词组合(hé)在一起。

    从解析树(shù)中还能看(kàn)出,单词的表述结构影响其在句中的语法关系。例如,在此结构中,“thief”是(shì)“robbed”的主语。

    结(jié)合结构(gòu)来看,动词(cí)“robbed”,上方(fāng)标有“V”,更上一级标(biāo)有“VP”;主语“thief”,上(shàng)方标有(yǒu)N和“NP”,通过(guò)“S”联系(xì)在(zài)一起。这就(jiù)像主语—动词关系的模板,同(tóng)样还有(yǒu)许多其他类型的关系。

    词干(gàn)提取:

    词(cí)干提取是一种来自(zì)形态学和(hé)信息检(jiǎn)索的技术,在NLP中用(yòng)于预处理和效率提升。但是,我们首先看一(yī)下词(cí)典中的释义(yì):词干 — “起源(yuán)于或由其(qí)引起(qǐ)。”

    基本上,“词干提(tí)取”是将单词进行缩(suō)减(jiǎn)得到词干的过程(chéng),而“词干”的实际意义是是(shì)在(zài)删除单词的(de)所(suǒ)有的前缀后缀(zhuì)之后保留(liú)的一部分。例如,“touched”,它的词干是“touch”,同(tóng)时“touch”也是“touching”等词的(de)词干。

    为什么需要词(cí)干?因为我们(men)会遇到(dào)不同的词(cí)汇变形,而实际上它们具有相(xiàng)同(tóng)的(de)词干和意义。举例来(lái)说:

    # I was taking a ride in the car

    # I was riding in the car.

    这两个句子意思是一致的(de),ride和riding的用法也(yě)是相(xiàng)同的(de)。

    词汇表中所有的单词有不同(tóng)的注释,其中还包括大(dà)量(liàng)实际意义相同的单词,要存(cún)储它们(men),需(xū)要(yào)一个庞大数据库,但是通过词(cí)干提取(qǔ),仅(jǐn)关注单词的词干,可以很(hěn)好(hǎo)地(dì)解决这(zhè)个问题。现行的通用算法之一是(shì)1979年的“Porter Stemming Algorithm”(波特词干算法),非常使用便捷。

    文字分割:

    NLP中的文本分割是(shì)将文(wén)本转换为有意义(yì)的单(dān)元的过(guò)程,可(kě)以(yǐ)是单词、句子、也可以是不同的主(zhǔ)题或潜在的意图等。在文本分割(gē)中(zhōng),文本根据(jù)不同语种被分(fèn)割(gē)为成份单词,由于人类语言的(de)复杂性,通常比较难。举个(gè)例子,在英语中利用空(kōng)格(gé)来分隔单词,相(xiàng)对(duì)高(gāo)效(xiào)实用(yòng),但是(shì)也(yě)有像“ice box”这(zhè)类词语(yǔ)的例(lì)外,ice和box这两个由空格隔开的(de)词合(hé)并一(yī)起使用才有原本含义的,所以人们有时把(bǎ)它写作“ice-box”,那么就给文字分割带来了难题。

    命名实体识(shí)别:

    命(mìng)名(míng)实(shí)体识别(NER)用(yòng)于确定文本中(zhōng)哪些词条属于命名实体,这些词条可以被定位并归(guī)入预定(dìng)义的类(lèi)别,类别的(de)范围包(bāo)括(kuò)人(rén)名,组织,地点,还(hái)有货(huò)币价值和百分(fèn)比。

    看下面的例子:

    NER之前:Martin bought 300 shares of SAP in 2016.

    NER之后:[Martin]Person bought 300 shares of [SAP]Organization in [2016]Time.

    关系抽(chōu)取:

    关系提取采用“命名实体识别(NER)”的命名实体(tǐ),并识别它们之间(jiān)的(de)语义关(guān)系。这(zhè)可能(néng)意味(wèi)着它能够发现文本中词语之间的关联性,例(lì)如谁(shuí)与谁结(jié)婚,某人在哪(nǎ)个公司工作等。这个问(wèn)题也可以转(zhuǎn)换为分类(lèi)问题,然后为每(měi)种关系类型训练机器学习模(mó)型。

    情感分析:

    通过情(qíng)感分(fèn)析,我们想(xiǎng)要确定例如说话者或作者(zhě)关于文档,互动或事件的态度(例如(rú)情绪)。因此,需要理解文本以预测潜在意图(tú)是一(yī)种自然语言处理(lǐ)问题。情绪主要(yào)分为积(jī)极(jí),消极(jí)和中性(xìng)两(liǎng)类。通过使用情感(gǎn)分析,我们希望根据他撰写的(de)关于产(chǎn)品的评论来预(yù)测(cè)客户对产品的看法(fǎ)和态度。因此(cǐ),情感分(fèn)析广泛应用于评论,调查,文档等等(děng)

    如果你对(duì)使用Python中(zhōng)的某些技术(shù)感兴趣(qù),可以查看我创建的Python的自然语言工(gōng)具包(bāo)(NLTK)的(de)Jupyter Notebook。你还可以查(chá)看我(wǒ)的博客文(wén)章,了解如何(hé)使用Keras构建神经网络,我将训练(liàn)神经网络进行情感(gǎn)分析。

    5.深度学习和NLP

    深(shēn)度学习和自(zì)然语言的核心是“词义”,在这(zhè)里,单词(cí)用(yòng)一个(gè)实数向量来表(biǎo)示(shì)。因此,通过向量来代表单词(cí)单词,我们(men)可以将单词置于(yú)高维(wéi)度(dù)的(de)空(kōng)间中,由向量表(biǎo)示的单词起到语义空间的(de)作用。这仅仅意(yì)味着在该高维向量空间中,形近意近的单(dān)词倾向(xiàng)于聚集(jí)在一起(qǐ)。下图中,可以看到单词含义的直观(guān)展示:

    自然(rán)语(yǔ)言处理入门教程

    在此空间中,如果想要知(zhī)道某一组(zǔ)聚集成类的单词的含义,可以通过(guò)使用主成(chéng)分分析法(PCA),也可以使用降(jiàng)维法。但这些方法(fǎ)太简单并且会遗漏了周边(biān)的大量信(xìn)息,因而产生误差。在研究的初始阶段(duàn),这些(xiē)方法很好用,(如数据科学中的逻辑或线性回(huí)归)但并不是前沿技术。

    我们还可以将单词的一部分当作向量,这些向量可以代表单词的含义。想象一下(xià)“undesirability”这个词。使用“形(xíng)态学方法”,它涉及一个词所(suǒ)具有(yǒu)的不同部分,我们认为它由词素(单词部分)构成(chéng):“Un + desire + able + ity”。每个语素都有自己(jǐ)的向量。这允许(xǔ)我们构建一个(gè)神经网络,它可以构成一个更大的单位的意义,而(ér)更(gèng)大的(de)单位又由所(suǒ)有(yǒu)这些语素组(zǔ)成。

    深度学习还可以通过创建句法分析器来理解句子(zǐ)的结构,谷歌(gē)正在使用这样的依赖解析技术,在(zài)他们的“McParseface”和“SyntaxNet”(两种语言解析器),不过(guò)更加宏大,更加复杂。

    通过分析句子结构,我们开始理解句子的意义,可以从单词的含义开始,也可以从整(zhěng)个(gè)短语和句子开始,无论(lùn)单词的意义、短语还是(shì)句子,都用向量来表示(shì)。如(rú)果想知道(dào)句子之间的关系,我们可以创(chuàng)建神经网络来帮(bāng)助(zhù)分析。

    深度(dù)学习也适用于情(qíng)感(gǎn)分析。请看(kàn)这个电影评论:“这部电影不在乎是不是(shì)巧妙,也不(bú)在乎幽默与(yǔ)否”。传统的(de)机器(qì)学(xué)习算(suàn)法会(huì)认为(wéi)这是(shì)一(yī)个积极的评(píng)论,因为“聪明”和“幽默”是积极的词汇,但是(shì)神经网络能(néng)够识别出它的真正含义。

    另外,深度(dù)学习算法实现(xiàn)的机器(qì)翻译中,它从(cóng)句子开始翻译(yì),并生成(chéng)一个(gè)向量,然后用(yòng)另外一(yī)种语言生成(chéng)所需(xū)要的信息。

    总而言之,NLP与深(shēn)度学(xué)习(xí)相结合(hé),就是表示单词、短语的向量,以及它们的含义。

    关键词(cí): AI挖掘技术




    AI人工智(zhì)能网声明:

    凡资讯来源注明为其他媒体来源(yuán)的信息,均(jun1)为转载(zǎi)自(zì)其他媒体,并(bìng)不代表本网站(zhàn)赞同其(qí)观(guān)点(diǎn),也不(bú)代表本网站对其真实性负责。您若(ruò)对该文章内容有任何疑问或质疑,请立(lì)即与网站(zhàn)(www.chaoyang.maanshan.liaocheng.jixi.ww38.viennacitytours.com)联系,本网站(zhàn)将迅速给(gěi)您(nín)回应并做处(chù)理。


    联(lián)系电话:021-31666777   新闻、技术文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    工博士人工智能网
    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版
    扫描二维码(mǎ)关(guān)注微信
    扫码反(fǎn)馈

    扫一扫,反馈当(dāng)前页面(miàn)

    咨(zī)询反馈(kuì)
    扫码关注

    微信公(gōng)众(zhòng)号

    返回顶部

    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版

    银河游戏平台app(官方网站) - APP下载IOS/安卓/全站通用版