[发明专利]一种基于Lattice LSTM和语言模型的命名实体识别方法有效

专利信息
申请号: 201811434481.1 申请日: 2018-11-28
公开(公告)号: CN109284400B 公开(公告)日: 2020-10-23
发明(设计)人: 廖伟智;王宇;马攀;阴艳超 申请(专利权)人: 电子科技大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/284;G06N3/04;G06N3/08
代理公司: 成都虹盛汇泉专利代理有限公司 51268 代理人: 王伟
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 lattice lstm 语言 模型 命名 实体 识别 方法
【权利要求书】:

1.一种基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,包括以下步骤:

A、获取语言模型的训练语料数据并进行预处理;

具体包括以下分步骤:

A1、将语言模型的训练语料数据OrgData转换为字符级的语料数据NewData;

A2、统计字符级的语料数据NewData中的字符,得到字符集合CharSet,并将每个字符进行编号,得到字符集合对应字符编号集合CharID;

A3、将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch;

A4、将每一个Batch的字符通过字符编号集合CharID转换为固定长度的数据BatchData;

A5、删除文档的第一个字符,将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch,并将每一个Batch的字符通过字符编号集合CharID转换为固定长度的标签数据PredictData;

B、根据步骤A预处理后的训练语料数据构建基于LSTM的语言模型;

所述基于LSTM的语言模型包括Embedding层、第一DropOut层、第一单向LSTM层、第二DropOut层、第二单向LSTM层和SoftMax层;

所述步骤B还包括将步骤A4得到的固定长度的数据BatchData和步骤A5得到的固定长度的标签数据PredictData输入到基于LSTM的语言模型中,训练基于LSTM的语言模型的模型参数;

C、获取命名实体识别模型的训练语料数据并进行标注,形成标注语料,具体为采用BMESO的标记方式对命名实体识别模型的训练语料数据进行标注;

D、对步骤C得到标注语料进行预处理;

具体包括以下分步骤:

D1、统计标注语料的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合对应字符编号集合CharID;统计标注语料的标签,得到标签集合LableSet,将每个标签进行编号,得到标签集合LableSet对应的标签编号集合LableID;

D2、以汉语词典为基础建立一棵单词查找树,将标注语料中的每一句话与单词查找树进行匹配,保留匹配成功的词,得到单词集合WordSet;

D3、去除单词集合WordSet中的重复词得到新的WordSet,并对新的WordSet中的每个词进行编号,得到新WordSet对应的编号集合WordID;

D4、将标注语料中的每个字符和标签分别根据CharID和LableID转换为对应ID,并让标注语料中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;

D5、将步骤D4中转换成ID后的语料随机排列顺序,并采用随机无放回的方式从标注语料中抽取BatchSize句数据c,以及对应的标签y和对应的单词集合w;

E、根据步骤B得到的基于LSTM的语言模型和步骤D预处理后的标注语料构建基于Lattice LSTM和语言模型的命名实体识别模型;

F、利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果。

2.如权利要求1所述的基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,所述步骤E中,基于Lattice LSTM和语言模型的命名实体识别模型包括Embedding层、第一DropOut层、Lattice LSTM层、拼接层、第二DropOut层、LSTM层和CRF层。

3.如权利要求2所述的基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,所述基于Lattice LSTM和语言模型的命名实体识别模型中的拼接层将步骤D5中的数据c输入到基于LSTM的语言模型后的输出与Lattice LSTM层的输出进行拼接。

4.如权利要求3所述的基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,所述步骤F利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果,具体为:

将待识别数据中的每个字符根据字符编号集合CharID转换为对应ID,并将预测数据中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;然后将转换后的ID输入到基于Lattice LSTM和语言模型的命名实体识别模型中,并采用维特比算法求出每句话最大可能的标注序列,将其作为命名实体识别结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811434481.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top