[发明专利]一种基于Lattice LSTM和语言模型的命名实体识别方法有效
申请号: | 201811434481.1 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109284400B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 廖伟智;王宇;马攀;阴艳超 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lattice lstm 语言 模型 命名 实体 识别 方法 | ||
1.一种基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,包括以下步骤:
A、获取语言模型的训练语料数据并进行预处理;
具体包括以下分步骤:
A1、将语言模型的训练语料数据OrgData转换为字符级的语料数据NewData;
A2、统计字符级的语料数据NewData中的字符,得到字符集合CharSet,并将每个字符进行编号,得到字符集合对应字符编号集合CharID;
A3、将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch;
A4、将每一个Batch的字符通过字符编号集合CharID转换为固定长度的数据BatchData;
A5、删除文档的第一个字符,将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch,并将每一个Batch的字符通过字符编号集合CharID转换为固定长度的标签数据PredictData;
B、根据步骤A预处理后的训练语料数据构建基于LSTM的语言模型;
所述基于LSTM的语言模型包括Embedding层、第一DropOut层、第一单向LSTM层、第二DropOut层、第二单向LSTM层和SoftMax层;
所述步骤B还包括将步骤A4得到的固定长度的数据BatchData和步骤A5得到的固定长度的标签数据PredictData输入到基于LSTM的语言模型中,训练基于LSTM的语言模型的模型参数;
C、获取命名实体识别模型的训练语料数据并进行标注,形成标注语料,具体为采用BMESO的标记方式对命名实体识别模型的训练语料数据进行标注;
D、对步骤C得到标注语料进行预处理;
具体包括以下分步骤:
D1、统计标注语料的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合对应字符编号集合CharID;统计标注语料的标签,得到标签集合LableSet,将每个标签进行编号,得到标签集合LableSet对应的标签编号集合LableID;
D2、以汉语词典为基础建立一棵单词查找树,将标注语料中的每一句话与单词查找树进行匹配,保留匹配成功的词,得到单词集合WordSet;
D3、去除单词集合WordSet中的重复词得到新的WordSet,并对新的WordSet中的每个词进行编号,得到新WordSet对应的编号集合WordID;
D4、将标注语料中的每个字符和标签分别根据CharID和LableID转换为对应ID,并让标注语料中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;
D5、将步骤D4中转换成ID后的语料随机排列顺序,并采用随机无放回的方式从标注语料中抽取BatchSize句数据c,以及对应的标签y和对应的单词集合w;
E、根据步骤B得到的基于LSTM的语言模型和步骤D预处理后的标注语料构建基于Lattice LSTM和语言模型的命名实体识别模型;
F、利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果。
2.如权利要求1所述的基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,所述步骤E中,基于Lattice LSTM和语言模型的命名实体识别模型包括Embedding层、第一DropOut层、Lattice LSTM层、拼接层、第二DropOut层、LSTM层和CRF层。
3.如权利要求2所述的基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,所述基于Lattice LSTM和语言模型的命名实体识别模型中的拼接层将步骤D5中的数据c输入到基于LSTM的语言模型后的输出与Lattice LSTM层的输出进行拼接。
4.如权利要求3所述的基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,所述步骤F利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果,具体为:
将待识别数据中的每个字符根据字符编号集合CharID转换为对应ID,并将预测数据中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;然后将转换后的ID输入到基于Lattice LSTM和语言模型的命名实体识别模型中,并采用维特比算法求出每句话最大可能的标注序列,将其作为命名实体识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811434481.1/1.html,转载请声明来源钻瓜专利网。