[发明专利]基于注意力机制和语言模型学习的中文命名实体识别方法有效
申请号: | 201811517779.9 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109657239B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 廖伟智;马攀;王宇;阴艳超 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 语言 模型 学习 中文 命名 实体 识别 方法 | ||
本发明公开了一种基于注意力机制和语言模型学习的中文命名实体识别方法,该方法包括构建基于字的字典,对每个元素对应的ID号进行向量转换,通过restricted Self‑attention层进行组合,通过第一层Bi‑LSTM进行拼接组合并训练语言模型,通过第二层Bi‑LSTM进行拼接组合并采用条件随机场方法进行标签预测训练,将数据集进行随机排列并采用Adam优化方法进行多轮训练,利用神经网络对待识别的文本数据进行中文命名实体识别。本发明只基于字的特征,不需要进行分词和其他的词性、句法等人工特征,提高了方法的健壮性和鲁棒性;而且本发明对未登录词表现良好,且性能优良,可以很好的提高下游任务的性能。
技术领域
本发明属于实体识别技术领域,具体涉及一种基于注意力机制和语言模型学习的中文命名实体识别方法。
背景技术
中文命名实体识别问题是自然语言处理领域最常见的问题之一,其主要任务是给非结构化的文本中的字或词打上标签,便于提取文本中的有效信息。
中文命名体识别任务是对中文文本数据中的实体进行识别,提取文本中的有效信息,具体的,识别的对象是中文文本数据,如一句话或一段文章;识别的要求是标记出这段文字中的实体名称,如人名、地名、机构名、称谓等等。
目前进行中文命名实体识别的方法主要分为三类:
1.基于规则的无监督方法:
主要是根据待识别的命名实体在语言学上的表现形式,人为设置一些规则去匹配句子的句法结构,标记处命名实体。基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。这类方法的效果很大程度上依赖于设定规则的语言学专家的水平,而且对于不同的领域需要设置不同的规则去适应,所以比较消耗时间和人力。
2.基于概率统计的方法:
统计机器学习方法将命名实体识别当作序列标注任务来看,通过大规模的语料学习来获得语言模型,从而实现对句子各个位置的标注。这类方法常用的模型有:生成式模型隐马尔科夫模型(HMM)和判别式模型条件随机场(CRF)等。
3.基于神经网络的方法:
随着神经网络的快速发展,特别是循环神经网络的发展,对处理序列任务带来的了重大性能提高,加上词向量的发展,使神经网络处理文本数据成为一种途径。加上神经网络强大的特征提取能力,不要多余的人工特征就能达到很好的性能。在处理序列标注问题比较突出的就是LSTM+CRF模型,其在英文命名实体识别中取得了很好的效果,但是由于中文语言特性的关系,这套模型在中文命名实体识别任务中表现的没有那么出色。所以中文基于字还是基于词或者基于字和词混合特征的研究一直在进行,而且有论文指出基于字特征的命名实体识别任务的表现效果要好于基于词特征的效果,而且基于字特征的方法对于未登录词的表现要好于基于词特征的方法。
现有技术缺陷:
1.基于规则的无监督方法需要语言学专家来设置规则,而且对于不同的领域,甚至不同的文本语言风格都需要设置不同的规则,可扩展行很低。而且设置的规则如果严格的话,对于有效信息的遗漏很大。如果太宽松的话,识别的效果很差。
2.基于概率统计的方法主要由大规模的语料库学习来获得语言模型,主要模型有隐马尔科夫模型、最大熵模型和条件随机场,这类方法很依赖于语料库的质量,而且在某些样本上表现很差,导致泛化不够,召回率偏低,表现效果不是很好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811517779.9/2.html,转载请声明来源钻瓜专利网。