[发明专利]一种基于Lattice LSTM和语言模型的命名实体识别方法有效

申请号：	201811434481.1	申请日：	2018-11-28
公开（公告）号：	CN109284400B	公开（公告）日：	2020-10-23
发明（设计）人：	廖伟智;王宇;马攀;阴艳超	申请（专利权）人：	电子科技大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/284;G06N3/04;G06N3/08
代理公司：	成都虹盛汇泉专利代理有限公司 51268	代理人：	王伟
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lattice lstm 语言模型命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Lattice LSTM和语言模型的命名实体识别方法，其特征在于，包括以下步骤：

A、获取语言模型的训练语料数据并进行预处理；

具体包括以下分步骤：

A1、将语言模型的训练语料数据OrgData转换为字符级的语料数据NewData；

A2、统计字符级的语料数据NewData中的字符，得到字符集合CharSet，并将每个字符进行编号，得到字符集合对应字符编号集合CharID；

A3、将整个文档切分为Batch大小个子序列，然后以长度Length切分这些序列，得到m个Batch；

A4、将每一个Batch的字符通过字符编号集合CharID转换为固定长度的数据BatchData；

A5、删除文档的第一个字符，将整个文档切分为Batch大小个子序列，然后以长度Length切分这些序列，得到m个Batch，并将每一个Batch的字符通过字符编号集合CharID转换为固定长度的标签数据PredictData；

B、根据步骤A预处理后的训练语料数据构建基于LSTM的语言模型；

所述基于LSTM的语言模型包括Embedding层、第一DropOut层、第一单向LSTM层、第二DropOut层、第二单向LSTM层和SoftMax层；

所述步骤B还包括将步骤A4得到的固定长度的数据BatchData和步骤A5得到的固定长度的标签数据PredictData输入到基于LSTM的语言模型中，训练基于LSTM的语言模型的模型参数；

C、获取命名实体识别模型的训练语料数据并进行标注，形成标注语料，具体为采用BMESO的标记方式对命名实体识别模型的训练语料数据进行标注；

D、对步骤C得到标注语料进行预处理；

具体包括以下分步骤：

D1、统计标注语料的字符，得到字符集合CharSet，将每个字符进行编号，得到字符集合对应字符编号集合CharID；统计标注语料的标签，得到标签集合LableSet，将每个标签进行编号，得到标签集合LableSet对应的标签编号集合LableID；

D2、以汉语词典为基础建立一棵单词查找树，将标注语料中的每一句话与单词查找树进行匹配，保留匹配成功的词，得到单词集合WordSet；

D3、去除单词集合WordSet中的重复词得到新的WordSet，并对新的WordSet中的每个词进行编号，得到新WordSet对应的编号集合WordID；

D4、将标注语料中的每个字符和标签分别根据CharID和LableID转换为对应ID，并让标注语料中的每一句话与单词查找树进行匹配，保存每一句话匹配到的词，并将这些词根据WordID转换为对应的ID；

D5、将步骤D4中转换成ID后的语料随机排列顺序，并采用随机无放回的方式从标注语料中抽取BatchSize句数据c，以及对应的标签y和对应的单词集合w；

E、根据步骤B得到的基于LSTM的语言模型和步骤D预处理后的标注语料构建基于Lattice LSTM和语言模型的命名实体识别模型；

F、利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理，得到命名实体识别结果。

2.如权利要求1所述的基于Lattice LSTM和语言模型的命名实体识别方法，其特征在于，所述步骤E中，基于Lattice LSTM和语言模型的命名实体识别模型包括Embedding层、第一DropOut层、Lattice LSTM层、拼接层、第二DropOut层、LSTM层和CRF层。

3.如权利要求2所述的基于Lattice LSTM和语言模型的命名实体识别方法，其特征在于，所述基于Lattice LSTM和语言模型的命名实体识别模型中的拼接层将步骤D5中的数据c输入到基于LSTM的语言模型后的输出与Lattice LSTM层的输出进行拼接。

4.如权利要求3所述的基于Lattice LSTM和语言模型的命名实体识别方法，其特征在于，所述步骤F利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理，得到命名实体识别结果，具体为：

将待识别数据中的每个字符根据字符编号集合CharID转换为对应ID，并将预测数据中的每一句话与单词查找树进行匹配，保存每一句话匹配到的词，并将这些词根据WordID转换为对应的ID；然后将转换后的ID输入到基于Lattice LSTM和语言模型的命名实体识别模型中，并采用维特比算法求出每句话最大可能的标注序列，将其作为命名实体识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811434481.1/1.html，转载请声明来源钻瓜专利网。

上一篇：相似度预测模型训练方法、设备及计算机可读存储介质
下一篇：课件标签添加、课件推荐方法、装置和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Lattice LSTM和语言模型的命名实体识别方法有效

专利文献下载