[发明专利]基于Lattice LSTM的古文领域命名实体识别方法和系统在审
申请号: | 202010454177.4 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111738002A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 刘秀磊;陈若愚;刘旭红;崔丹丹;李臻 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙) 11384 | 代理人: | 郑青松 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lattice lstm 古文 领域 命名 实体 识别 方法 系统 | ||
1.一种基于Lattice LSTM的古文领域命名实体识别方法,其特征在于,包括:
采用甲言分词对预训练古文数据进行分词;
采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量;
将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型;
将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。
2.如权利要求1所述的基于Lattice LSTM的古文领域命名实体识别方法,其特征在于,将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型的步骤中,包括:
获取数据集数据;
对所述数据集数据进行标注得到标注数据;
将标注数据按照预设数值比例进行划分,得到训练集数据、验证集数据和测试集数据;
将所述训练集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型;
将所述测试集数据输入至优化后的Lattice LSTM模型中进行评估,得到评估结果。
3.如权利要求2所述的基于Lattice LSTM的古文领域命名实体识别方法,其特征在于,对所述数据集数据进行标注得到标注数据的步骤中,包括:
获取预设实体种类信息,所述预设实体种类信息包括人名、地名、官职名和朝代名中的至少之一;
根据所述预设实体种类信息对数据集数据采用BIO标注体系进行标注得到标注数据。
4.如权利要求3所述的基于Lattice LSTM的古文领域命名实体识别方法,其特征在于,所述标注数据包括B-PER代表人名首字、I-PER代表人名非首字,B-LOC代表地名首字、I-LOC代表地名非首字,B-POS代表官职名首字、I-POS代表官职名非首字,B-DYN代表朝代名首字、I-DYN代表朝代名非首字,O代表该字不属于命名实体的一部分。
5.如权利要求2所述的基于Lattice LSTM的古文领域命名实体识别方法,其特征在于,所述测试集数据为人工修正后的数据,所述评估结果包括精确率、召回率和F1值。
6.如权利要求1所述的基于Lattice LSTM的古文领域命名实体识别方法,其特征在于,
所述甲言分词为字符级隐马尔可夫分词;
所述word2vec模型为Skip-gram模型,所述Skip-gram模型的词向量的长度为300,迭代次数为8。
7.如权利要求1-6任一所述的基于Lattice LSTM的古文领域命名实体识别方法,其特征在于,所述优化后的Lattice LSTM模型的最优超参数为字向量的维度300、lattie词向量维度300、LSTM层数1、学习率初始值0.015、学习率的衰减值0.05、字嵌入层随机丢弃率0.5、lattice网络随机丢弃率0.5。
8.一种基于Lattice LSTM的古文领域命名实体识别系统,其特征在于,包括:
分词模块,用于采用甲言分词对预训练古文数据进行分词;
预训练字词向量模块,用于采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量;
模型优化模块,用于将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型;
命名实体识别模块,用于将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010454177.4/1.html,转载请声明来源钻瓜专利网。