[发明专利]一种基于Lattice LSTM和语言模型的命名实体识别方法有效
申请号: | 201811434481.1 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109284400B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 廖伟智;王宇;马攀;阴艳超 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lattice lstm 语言 模型 命名 实体 识别 方法 | ||
本发明公开了一种基于Lattice LSTM和语言模型的命名实体识别方法,该方法包括语言模型训练语料预处理,构建基于LSTM的语言模型,命名实体识别训练语料预处理,构建基于Lattice LSTM和语言模型的命名实体识别模型,进行命名实体识别。本发明通过构建基于Lattice LSTM和语言模型的命名实体识别模型,有效的利用了字符嵌入和词嵌入来进行命名实体识别,并且在命名识别模型中使用语言模型来提供上下文信息,显著提高了命名实体识别的识别精度,同时减少了人工数据标注造成的人力消耗。
技术领域
本发明属于命名实体识别技术领域,具体涉及一种基于Lattice LSTM和语言模型的命名实体识别方法。
背景技术
传统的命名实体识别方法可以分为基于词典的命名实体识别方法,基于规则的命名实体识别方法,基于传统机器学习的命名实体识别的方法,基于LSTM-CRF的命名实体识别的方法。
基于词典的命名实体识别方法,其原理是将可能多的不同类别的实体收入词典中,识别时将文本信息和词典中的词语进行匹配,匹配上的则标记为对应的实体类别。
基于规则的命名实体识别方法的原理利用手工编写的规则,将文本与规则进行匹配来识别出命名实体。例如,对于中文来说,“说”、“老师”等词语可作为人名的下文,“大学”、“医院”等词语可作为组织机构名的结尾,还可以利用到词性、句法信息。
基于传统机器学习的命名实体识别的方法,例如基于CRF(条件随机场)的命名实体识别的方法、基于HMM(隐马尔可夫)的命名实体识别的方法等,这类方法的原理是通过人工构建特征模板提取特征,作为输入,学习前后一个词的语义信息,然后做出分类判断。基于LSTM-CRF的命名实体识别的方法,其原理是通过输入词向量或者字符向量,让LSTM自动提取特征作为CRF的输入,然后通过CRF来进行分类判断。
上述现有技术存在下列缺陷:
1、基于词典的命名实体识别方法严重依赖于词典库,无法识别未登录词。
2、基于规则的命名实体识别方法在构建规则的过程中往往需要大量的语言学知识,不同语言的识别规则不尽相同,而且需要谨慎处理规则之间的冲突问题;此外,构建规则的过程费时费力、可移植性不好。
3、基于传统机器学习的命名实体识别的方法需要人工提取特征模板,非常耗时耗力,并且特征模板的质量对命名实体识别的影响很大,以及这种方法只能关联当前词的前一个词的语义,无法解决长依赖的问题,并且无法识别未登录词。
4、基于LSTM-CRF的命名实体识别的方法,这种方法主要有两种形式,一种是基于词的(输入为词向量),一种是基于字的(输入为字符向量)。基于词主要有两个缺陷:(1)基于词的需要先分词,然后在做命名实体识别,所以分词的准确度对后面的命名实体识别有着较大的影响;(2)词向量的学习,对一些语料中未出现的,或者出现次数比较少的,他们的词向量的质量是很难保证的,而语料中未出现或者次数较少的词也很大一部分是实体词。基于字的主要有两个缺陷:(1)没有利用粗粒度的信息,比如词信息、上下文信息;(2)一个字符对应一个固定的字符向量不合理,因为同一个字符在不同的语境中或者词中其含义是不同的
发明内容
本发明的发明目的是:为了解决现有技术中存在的以上问题,本发明提出了一种能够有效的提高命名实体识别精度的基于Lattice LSTM和语言模型的命名实体识别方法。
本发明的技术方案是:一种基于Lattice LSTM和语言模型的命名实体识别方法,包括以下步骤:
A、获取语言模型的训练语料数据并进行预处理;
B、根据步骤A预处理后的训练语料数据构建基于LSTM的语言模型;
C、获取命名实体识别模型的训练语料数据并进行标注,形成标注语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811434481.1/2.html,转载请声明来源钻瓜专利网。