趣文网,分享全网好句子、好文章!

创新工场提出中文分词和词性标注新模型 可提升工业应用效率

时间:2023-08-20 03:40:01

相关推荐

创新工场提出中文分词和词性标注新模型 可提升工业应用效率

DoNews7月13日消息(记者 翟继茹)13日,记者从创新工场获悉,其最新提出了中文分词和词性标注模型,可将外部知识(信息)融入分词及词性标注模型,剔除了分词“噪音”误导,提升了分词及词性标注效果。

在NLP中,中文分词和词性标注是中文自然语言处理的两个基本任务,尤其在工业场景对分词有非常直接的诉求,但当前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。

创新工场方面解释,中文语言因其特殊性,在分词时面临着两个主要难点。一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其正确的切分应为“部分/居民/生活/水平”,但存在“分居”、“民生”等歧义词。“他从小学电脑技术”,正确的分词是:他/从小/学/电脑技术,但也存在“小学”这种歧义词。

二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词,或者是人名。这类问题在跨领域分词任务中尤其明显。

因此,在“键-值记忆神经网络的中文分词模型”的模型中,利用n元组(即一个由连续n个字组成的序列,比如“居民”是一个2元组,“生活水平”是一个4元组)提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解。并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。

在算法实验中,该模型在5个数据集(MSR、PKU、AS、CityU、CTB6)上的表现,均刷新历史成绩。

创新工场大湾区人工智能研究院执行院长宋彦表示,与前人的模型进行比较发现,该模型在所有数据集上的表现均超过了之前的工作,“把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。”

在基于双通道注意力机制的分词及词性标注模型中,将中文分词和词性标注视作联合任务,可一体化完成。模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献,从而降低了“噪音”。

创新工场介绍,在和斯坦福大学的 CoreNLP 工具的相比中,该模型有近10个百分点的提升。

在场景应用上,创新工场主要希望解决工业场景的突破,宋彦表示,“在工业场景使用的时候,跨领域的模型能力是一个非常直接的诉求。”创新工场介绍,“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”两篇文章,已经入选自然语言处理领域(NLP)顶级学术会议 ACL 2020。(完)

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(2)
  1. 雪映小镇2023-12-21 19:17雪映小镇[贵州省网友]113.208.188.61
    创新工场直在推动语处理技术进步这提出新模型无疑将为中文分词和词性标注领域带新发展机遇。
    顶0踩0
  2. 冷云2023-10-20 23:28冷云[江苏省网友]203.18.37.127
    这个新模型对中文处理效率提升真很有帮助期待到它在工业应用中发挥更大作用。
    顶7踩0
相关阅读
创新工场论文入选NeurIPS 2019 研发最强「AI蒙汗药」

创新工场论文入选NeurIPS 2019 研发最强「AI蒙汗药」

这篇论文围绕现阶段人工智能系统的安全性展开研究,具体而言,文章提出了一种高效生成对抗训练样本的方法 DeepConfuse,通过微弱扰动数据库的方式,彻底

2023-07-03

复旦大学提出中文分词新方法 Transformer连有歧义的分词也能学

复旦大学提出中文分词新方法 Transformer连有歧义的分词也能学

从不同的角度看待中文句子,可能使中文分词任务CWS的标准完全不同

2023-11-29

李婧:统一思想解放思想让科技创新成为增强杨凌话语权的重要支撑

李婧:统一思想解放思想让科技创新成为增强杨凌话语权的重要支撑

在工业园区中心、创业工场和众创田园,李婧听取了创服空间创业孵化培育及中小企业服务、创业孵化等情况汇报,与入驻企业负责人、入孵大学生亲切交谈,勉

2023-08-20

绘本创作英语教学中 营造愉悦的学习氛围 提高学习英语的效率

绘本创作英语教学中 营造愉悦的学习氛围 提高学习英语的效率

绘本创作在英语课堂中的运用主要是与课文的知识点相融合, 创作一个新的语境,以一个新绘本的形式重新展示给学生

2010-01-28