[发明专利]基于Lattice LSTM的古文领域命名实体识别方法和系统在审
申请号: | 202010454177.4 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111738002A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 刘秀磊;陈若愚;刘旭红;崔丹丹;李臻 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙) 11384 | 代理人: | 郑青松 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lattice lstm 古文 领域 命名 实体 识别 方法 系统 | ||
本发明公开了一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质,其中,该方法包括:采用甲言分词对预训练古文数据进行分词;采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量;将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型;将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。该方法采用甲言(jiayan)分词工具进行古文数据的分词,分词效果较好且符合语境,提高了古文分词的准确性;利用word2vec训练古文字、词向量,通过大量的文本获得质量更高的字词向量;将字向量和词向量共同作为Lattice LSTM模型的输入,提升了古文领域数据实体识别的效果。
技术领域
本发明涉及命名实体识别技术领域,具体涉及到一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER)的主要任务是识别出待处理文本中预定义好的命名实体,是知识图谱、问答系统、句法分析等自然语言处理任务中基础而关键的任务,推动了自然语言处理技术走向实用化。
古文数据凝聚了古人圣贤的智慧,是了解历史、传承中华文化、弘扬民族精神的重要途径,是现代汉语学习和发展的基础。研究古文领域的命名实体识别任务,挖掘古文中准确的实体信息,将给古文领域带来与时俱进的重要意义。古文领域数据在语法、句子长度等方面和现代文相比都具有一定程度上的差异,具有言文分离、行文简练、陌生难懂等特点,针对古文领域数据研究具有不可小觑的难度。然而,现有技术中的中文命名实体识别方法适用于现代汉语的命名实体识别,不能很好地适用于古文领域的命名实体识别,针对古文的命名实体识别研究甚少;因此,提供一种适用于古文领域的命名实体识别方法成为亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例提供了一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质,以适用于古文领域的命名实体识别。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种基于Lattice LSTM的古文领域命名实体识别方法,包括:采用甲言分词对预训练古文数据进行分词;采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量;将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型;将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。
可选地,将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型的步骤中,包括:获取数据集数据;对所述数据集数据进行标注得到标注数据;将标注数据按照预设数值比例进行划分,得到训练集数据、验证集数据和测试集数据;将所述训练集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型;将所述测试集数据输入至优化后的Lattice LSTM模型中进行评估,得到评估结果。
可选地,对所述数据集数据进行标注得到标注数据的步骤中,包括:获取预设实体种类信息,所述预设实体种类信息包括人名、地名、官职名和朝代名中的至少之一;根据所述预设实体种类信息对数据集数据采用BIO标注体系进行标注得到标注数据。
可选地,所述标注数据包括B-PER代表人名首字、I-PER代表人名非首字,B-LOC代表地名首字、I-LOC代表地名非首字,B-POS代表官职名首字、I-POS代表官职名非首字,B-DYN代表朝代名首字、I-DYN 代表朝代名非首字,O代表该字不属于命名实体的一部分。
可选地,所述测试集数据为人工修正后的数据,所述评估结果包括精确率、召回率和F1值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010454177.4/2.html,转载请声明来源钻瓜专利网。