第一句子大全,网罗天下好句子,好文章尽在本站!

AI产品经理需了解的技术知识:自然语言理解技术NLU

时间:2022-12-06

语言理解主要包括以下方面内容:能够理解句子的正确次序规则和概念,又能理解不含规则的句子;知道词的确切含义、形式、词类及构词法;了解词的语义分类

友情提示:本文共有 2016 个字,阅读大概需要 5 分钟。

本文章主要介绍了NLU技术的算法包括词法分析、句法分析、语义分析,有助于PM了解技术实现边界,产品快捷高效的落地~

自然语言理解技术(NLU)是人机对话产品中的重要一环,是指机器能够执行人类所期望的某些语言功能,换句话说就是人与机器交流的桥梁。

语言理解主要包括以下方面内容:

能够理解句子的正确次序规则和概念,又能理解不含规则的句子;知道词的确切含义、形式、词类及构词法;了解词的语义分类、词的多义性、词的歧义性;指定和不定特性及所有特性;问题领域的结构知识和实践概念;语言的语气信息和韵律表现;有关语言表达形式的文字知识;论域的背景知识。

语言理解通常分为三个层次:词法分析、句法分析、语义分析。

词法分析

词法分析是自然语言处理的技术基础,也是自然语言理解过程的第一层,因此词法分析的性能直接影响到后面句法和语义分析的成果。主要包括自动分词、词性标注、中文命名实体标注三方面内容。

1. 自动分词

现有分词的算法分为三大类:基于词典的分词方法、基于统计的分词方法、基于理解的分词方法。

当前主流的方法还是基于词典进行分词,主要包括正向最大匹配、逆向最大匹配、双向最大匹配。原理是按照既定的规则顺序,将目标字符串依次与词典匹配,匹配成功就取出该词,直到整个字符串全部匹配,如在词典中匹配到,就取出单字。

case:字串“召开大学生运动会”,分别通过三种分词算法进行切分:

(1)正向最大匹配

第一轮取词第1次:“召开大学生运动会”扫描词典,无匹配第2次:“召开大学生运动”扫描词典,无匹配第3次:“召开大学生运”扫描词典,无匹配第4次:“召开大学生”扫描词典,无匹配….第7次:“召开”扫描词典,匹配第二轮取词第1次:“大学生运动会”扫描词典,无匹配第2次:“大学生运动”扫描词典,无匹配…..第4次:“大学生”扫描词典,无匹配第5次:“大学”扫描词典,匹配

分词结果:召开/大学/生/运动/会

(2)逆向最大匹配

第一轮取词:第1次:“召开大学生运动会”扫描词典,无匹配第2次:“开大学生运动会”扫描词典,无匹配….第8次:“会”第二轮取词:第1次:“召开大学生运动”扫描词典,无匹配第2次:“开大学生运动”扫描词典,无匹配…第6次:“运动”扫描词典,匹配

分词结果:召开/大/学生/运动/会

(3)双向最大匹配

将正向最大匹配和逆向最大匹配算法得到的结果进行比较,从而确定正确的分词方法。

选择的依据如下:

大颗粒度词越多越好;非词典词越少越好;单字词越少越好。

2. 词性标注

词性标注是对分词结果中的每个单词标注一个正确的词性,例如:每个词是名词、动词还是形容词等。汉语中,词性标注笔记哦啊简单,因为大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。

因此在词性标注时,一般先针对已存在的词库进行统计学处理,建立词性标注模型,进而通过概率判断每个词的词性。

3. 中文命名实体

命名实体就是奖文本中的元素分成预先定义的类,例如:人名、地名、时间、百分比等。它的技术方法主要分为基于规则和词典、基于统计、二者结合的方法。

基于规则和词典的方法,大多是由语言学专家构造规则模板然后进行匹配。这个时候,词典和知识库的创建会直接影响命名实体的准确率。

举个简单规则的例子:人名=【姓氏】+【名字】,那么分别建立“姓氏”、“名字”库,如字串命中,则识别出包含人名实体。

基于统计的方法,主要是通过对训练语料所包含的语言信息进行统计和分析,从许年语料中挖掘出特征。因此这种方法对语料库的依赖比较大,而用来建设和评估命名实体识别系统的大规模通用语料库又比较少。

句法分析

句法分析的目标是自动推导出句子的句法结构,实现这个目标首先要确定语法体系,不同的语法体系会产生不同的句法结构。常见语法体系有短语结构语法、依存关系语法。

依存关系语法

同样分为基于规则和基于统计的两种方法,基本自然语言的技术中,很多都是基于“词典/规则”+“统计”的方法。

(1)基于规则的方法

优点在于:可以最大限度的接近自然语言的句法习惯、表达方式灵活多样,可以最大限度的表达研究人员的思想;缺点在于:规则刻画的知识粒度难以确定,无法确保规则的一致性,获取规则同样是一个繁琐的过程。

(2)基于统计的方法

目前是句法分析的主流技术,确定语法体系后,需要按照语法体系人工标注句子的语法结构,将其作为训练的语料。因此语料库的建设是非常关键的。

语义分析

语义分析就是指分析话语中所包含的含义,根本目的是理解自然语言。分为词汇级语义分析、句子级语义分析、段落/篇章级语义分析,即分别理解词语、句子、段落的意义。

这部分在我的工作中相对前两部分应用的较少一些,因此没有过多的进行学习了解。

理解NLU技术的基本原理和算法可以在PM优化产品时起到很大的帮助,使我在产品设计时,可以提前了解技术边界,在和研发沟通时,效率也更高。

本文由 @猪不会飞 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

本文如果对你有帮助,请点赞收藏《AI产品经理需了解的技术知识:自然语言理解技术NLU》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
2023年秋季运动会霸气加油句子

2023年秋季运动会霸气加油句子

...动场上活跃的巾帼,是一道道亮丽的风景。10、年一度的运动会如期而至。“沙场秋点兵”的壮阔,想必给了我们难以言喻的活力。11、运动场上有你们的飒爽英姿,运动场上有你们拼搏的身影,面对漫漫的征程,你没有畏惧和...

2015-06-06 #经典句子

运动会加油句子简短

运动会加油句子简短

...、让我们留一份期待,存一份期盼,共同祝愿他们在本次运动会中取得优异成绩!12、看!一支雄赳赳气昂昂的队伍向我们走来,那是初班的队伍,13、或许你努力过,争取过,但还是与成功的掌声和鲜花擦肩而过。14、啊!冠军...

2008-03-05 #经典句子

快乐学习 健康成长—一年级英语节趣味运动会

快乐学习 健康成长—一年级英语节趣味运动会

一年级英语节趣味运动会为给一年级的小朋友营造良好的英语学习氛围,激发学生英语学习的兴趣。4月21日下午,一年级英语趣味运动会在小学部操场举行,这次趣味运动会由伯克利一(1)班胡楚舒和一(6)班湛尚峰主持。八...

2023-01-02 #经典句子

运动会加油稿新颖句子简短

运动会加油稿新颖句子简短

1、体育如花绽放快乐校园,青春似火燃烧亮丽人生。2、借着奥运的东风迎着观众的喝彩,我们运动起来,奔跑在的跑道上,让我们共同努力,奔跑奔跑,冲向胜利的终点3、你用行动述说着过程的重要,没有无尽的终点,没有无...

2018-01-13 #经典句子

学校运动会加油稿句子

学校运动会加油稿句子

1、不长不短的距离,需要的是全身心全程投入;自始至终,你们都在拼全力;此时此刻,你们处在最风光的一刻;无论第几,坚持胜利的信心,只要跑下来,你们就是英雄!2、赛出风格,赛出水平;展现自我,争创新高。3、米既是...

2015-07-11 #经典句子

灵遁者最深刻的句子和科普观点 你看一遍是不会懂的!

灵遁者最深刻的句子和科普观点 你看一遍是不会懂的!

...,别忘了时间,空间,物质一体化的论述。也就是说这种运动会“搅动”能量时空,会吸引时空对它的关注。而且光速是运动的极限,就是因为时空的束缚态。94、量子力学是非定域的理论,爱氏广义相对论是非线性理论,是个...

2023-07-06 #经典句子

叶子上的虫还用治?二年级上册反问句考题汇总。附例题 附方法

叶子上的虫还用治?二年级上册反问句考题汇总。附例题 附方法

...说陈述句。家长说感叹句,孩子说陈述句。下雨天还要开运动会?(下雨天不要开运动会。)你自己有书,还用借?(你自己有书,不用借。)这样还能得到葫芦?(这样不能得到葫芦。)学习中遇到一点儿困难怕什么?(学习...

2023-01-16 #经典句子

老师敲黑板的重点题 小学生在写作文答卷时出错最多

老师敲黑板的重点题 小学生在写作文答卷时出错最多

...提高。下面是出错率较高的病句,你能修改正确吗?1、运动会时操场四周插满了五颜六色的红旗。2、听了老爷爷的故事,很受教育和启迪。3、今天早上我吃了两个包子和一碗稀饭,就上学了。4、我们要发挥艰苦朴素的优良传...

2022-12-06 #经典句子