第一句子大全,网罗天下好句子,好文章尽在本站!

AI自然语言处理(NLP)领域常用的16个术语

时间:2023-01-22

NLP研究的是实现人与计算机之间用自然语言进行有效沟通的各种理论与方法

友情提示:本文共有 1642 个字,阅读大概需要 4 分钟。

自然语言处理(NLP)是人工智能领域一个十分重要的研究方向。NLP研究的是实现人与计算机之间用自然语言进行有效沟通的各种理论与方法。

本文整理了NLP领域常用的16个术语,希望可以帮助大家更好地理解这门学科。

1.自然语言处理(NLP)

自然语言处理,简单来说就是构建人与机器之间沟通的桥梁,以实现人机交流的目的。

自然语言处理有两大核心任务:自然语言理解(NLU)与自然语言生成(NLG)。

2.Attention 机制

Attention的本质是从关注全部到关注重点。将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。

3.Encoder-Decoder 和 Seq2Seq

Encoder-Decoder是一类算法的统称,在这个框架下可以使用不同的算法来解决不同的任务。Encoder-Decoder很好的诠释了机器学习的核心思路:

将现实问题转化为数学问题,通过求解数学问题,从而解决现实问题。

Seq2Seq(是Sequence-to-Sequence的缩写),字面含义为:输入一个序列,输出另一个序列。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。

4.词干提取与词形还原

词干提取(Stemming)是去除单词的前后缀得到词根的过程。词形还原(Lemmatisation)是将单词的复杂形态转变成最基础的形态。

5.分词(Tokenization)

分词是自然语言处理的基础任务,将句子、段落分解为字词单位,方便后续的处理与分析。

6.词性标注(Part Of Speech)

词性标注是自然语言处理过程中一项非常重要的基础工作。简单来说就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。

词性标注常用的4种方法分别为:基于规则、基于统计、基于规则+统计、基于深度学习。

7.成分句法分析

成分句法分析是指对输入的单词序列判断其构成是否合乎给定的语法,分析出合乎语法句子的句法结构。

8..词向量|词嵌入(Word Embedding)

词向量是自然语言处理中一个重要的环节,是一些语言处理模型的统称。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

9.Word2vec

Word2vec是词向量方式之一,是将词转化为可计算、结构化向量的过程。

CBOW和Skip-gram是Word2vec常用的两种训练模式。

10.依存句法分析(Constituency-based Parse Trees)

在自然语言处理中,用词与词之间的依存关系来描述语言结构的框架称为依存语法。利用依存句法进行句法分析是自然语言理解的重要技术之一。

11.自然语言生成(NLG)

自然语言生成主要是将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等,主要有两种形式:文本到语言的生成、数据到语言的生成。

NLG在情感分析、聊天机器人、语音识别、机器翻译领域有着广泛的应用。

12.自然语言理解(NLU)

自然语言理解就是希望机器具备人一样的语言理解能力,但是由于语言具有多样性、歧义性等多种原因,目前NLU还远达不到人类的表现。

13.自然语言处理工具包(NLT)

在自然语言处理领域,NLT是最常使用的一个Python库,包含Python模块,数据集和教程等内容。

14.Transformer

Transformer是一个完全基于注意力机制的编解码器模型,它抛弃了之前其它模型引入注意力机制后仍然保留的循环与卷积结构,而采用了自注意力(Self-attention)机制,在任务表现、并行能力和易于训练性方面都有大幅的提高。

15.文本挖掘(Text Mining)

文本挖掘主要是从数据中寻找有价值的信息,来发现或者解决一些实际问题。

16.命名实体识别(Named Entity Recognition)

命名实体识别(NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体的边界和类别。

本文如果对你有帮助,请点赞收藏《AI自然语言处理(NLP)领域常用的16个术语》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
自然语言处理基础:上下文词表征入门解读

自然语言处理基础:上下文词表征入门解读

...特定于在自身特有上下文中的 token)。在我们之前的示例句子中,be 的两个实例就会有不同的向量,因为一个出现在 will 和 signed 之间,另一个则位于 we"ll 和 able 之间。现在看来,通过独立于上下文地表征 word type 实际上会让问...

2020-09-12 #经典句子

Keras文本分类实战(上)

Keras文本分类实战(上)

...载数据:结果如下:使用此数据集,可以训练模型来预测句子的情绪,下面可以考虑如何预测数据。一种常见方法是计算每个句子中每个单词的频率,并将此计数与数据集中的整个单词组相关联。首先从创建词汇开始,收集好的...

2023-01-22 #经典句子

AAAI 2020|通过解纠缠模型探测语义和语法的大脑表征机制

AAAI 2020|通过解纠缠模型探测语义和语法的大脑表征机制

...。针对大脑语义和语法表征的问题,我们利用计算模型将句子中的语义和语法特征区分开,使用分离的语义和语法特征来研究大脑对应的神经基础。图1基于解纠缠特征的人脑表征研究的计算框架论文方法针对上述问题,中科院...

2023-01-05 #经典句子

3分钟看懂自然语言处理之特征提取

3分钟看懂自然语言处理之特征提取

内容导读自然语言中意义最小的单位就是单词,其次是句子,再是段落,最后一整篇文章。下面我们仅仅从单词角度来看问题来说说两种常见的特征表示的方法。最神奇的是,词向量还存在可以加减性,例如:“小猫”-“猫”+...

2023-01-22 #经典句子

何索引数以十亿计的文本向量?

何索引数以十亿计的文本向量?

...方法,下一步就是将它们组合成文本向量(也称为文档或句子向量)。一种简单而常见的方法是对文本中所有单词的向量求和(或求平均值)。图 1:查询向量我们可以通过将两个文本片段(或查询)映射到向量空间并计算向量...

2023-01-22 #经典句子

机器翻译:谷歌翻译是如何对几乎所有语言进行翻译的?

机器翻译:谷歌翻译是如何对几乎所有语言进行翻译的?

...预测某个单词序列的概率,通常在单个集成模型中对整个句子进行建模。凭借神经网络的强大功能,神经网络机器翻译已经成为翻译领域最强大的算法。这种最先进的算法是深度学习的一项应用,其中大量已翻译句子的数据集用...

2023-02-05 #经典句子

达观数据:如何用深度学习做好长文本分类与法律文书智能化处理

达观数据:如何用深度学习做好长文本分类与法律文书智能化处理

...一个。我喜欢这类电影,但是不喜欢这一个。这样的两句句子经过词向量平均以后已经送入单层神经网络的时候已经完全一模一样了,分类器不可能分辨出这两句话的区别,只有添加n-gram特征以后才可能有区别。因此,在实际应...

2023-10-09 #经典句子

干货:2019年湖北技能高考文化综合考试大纲

干货:2019年湖北技能高考文化综合考试大纲

...记基础上高一级的能力层级。要求能够领会并解释词语、句子、段落等的意思。C.分析综合:指分解剖析和归纳整理,是在识记和理解的基础上进一步提高了的能力层级。要求能够筛选材料中的信息,分解剖析相关现象和问题...

2023-10-23 #经典句子

两篇AAAI论文 揭示微信如何做文章质量评估

两篇AAAI论文 揭示微信如何做文章质量评估

...献。相关研究可以分为三类:(1) 基于实体的方法,识别句子中的实体,建模相邻句子中实体的联系;(2) 基于词汇的方法,建模相邻句子的词共现信息 (3) 基于神经网络的方法,利用神经网络学习词和句字语义的向量表示,建模...

2023-05-22 #经典句子