[发明专利]基于深度学习的实体识别方法、装置、介质及电子设备在审

专利信息
申请号: 202110965679.8 申请日: 2021-08-20
公开(公告)号: CN113673247A 公开(公告)日: 2021-11-19
发明(设计)人: 鲁冰青;丁川;叶凯;樊海东;王剑斌 申请(专利权)人: 江苏曼荼罗软件股份有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04;G06N3/08
代理公司: 北京力量专利代理事务所(特殊普通合伙) 11504 代理人: 徐颖超
地址: 214135 江苏省无锡市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 实体 识别 方法 装置 介质 电子设备
【说明书】:

本申请公开了一种基于深度学习的实体识别方法、装置、计算机可读存储介质及电子设备,通过将输入的自然句拆分为多个字向量,然后对多个字向量进行特征提取得到每个字向量的特性信息,并且对多个字向量进行双向编码,得到每个字向量的双向编码信息,最后根据多个字向量的特性信息和双向编码信息,综合得到识别结果;即对自然句中的每个字进行特性提取以及对每个字进行双向编码,以获取每个字的语义特征和上下文特征,从而可以准确的识别命名实体。

技术领域

本申请涉及非结构化文字实体识别技术领域,具体涉及一种基于深度学习的实体识别方法、装置、计算机可读存储介质及电子设备。

背景技术

命名实体识别(Named Entity Recognition,NER)为自然语言处理的一项基础任务。早期基于规则和词典,主要依赖语言学家根据上下文语义结构归纳的模板。该方法对于难以归纳的总结无法解决,识别效果不明显,且归纳总结过程代价比较大,所以学者们使用机器学习方法来解决,对NER问题分类3类小问题:特征选择、机器学习策略、序列标注等。在处理NER问题时,使用大规模的标注语料让机器来训练模型,通过训练好的模型对测试语料进行序列解码等,得到命名实体。

但机器学习方法对文本特征提取要求较高,目前的机器学习方法参数巨大、运算内存占用较多,从而导致模型的运算效果和效率不高,且识别精度不高。

发明内容

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于深度学习的实体识别方法、装置、计算机可读存储介质及电子设备,解决了上述机器学习方法的识别精度不高的问题。

根据本申请的一个方面,提供了一种基于深度学习的实体识别方法,包括:对输入的自然句拆分为多个字向量;其中所述多个字向量构成所述自然句;对所述多个字向量分别进行特征提取,得到每个字向量的特性信息;其中所述特征信息包括所述字向量的类别信息;对所述多个字向量分别进行双向编码,得到每个字向量的双向编码信息;其中所述双向编码信息包括对应的当前字向量与所述当前字向量的前一个字向量、所述当前字向量的后一个字向量之间的关系信息;以及根据所述多个字向量的所述特征信息和所述双向编码信息,得到识别结果。

在一实施例中,在所述对所述多个字向量分别进行特征提取之后,所述实体识别方法还包括:对所述特征信息进行降维处理,得到降维后的特征信息;其中,所述根据所述多个字向量的所述特征信息和所述双向编码信息,得到识别结果包括:根据所述降维后的特征信息和所述双向编码信息,得到识别结果。

在一实施例中,所述对所述特征信息进行降维处理包括:共享所述多个字向量的全局参数信息和注意力参数信息。

在一实施例中,所述对所述多个字向量分别进行双向编码包括:将所述多个字向量的链式结构转换为图形结构;以及对所述图形结构中每两个字向量之间的编码信息设置权重。

在一实施例中,所述将所述多个字向量的链式结构转换为图形结构包括:在每两个字向量之间设置一个信息节点;所述信息节点包括所述双向编码信息,且所述信息节点的字节长度为预设的定值。

在一实施例中,所述在每两个字向量之间设置一个信息节点包括:当两个所述字向量之间不存在所述双向编码信息时,将该两个所述字向量之间的信息节点设置为预设的字节长度的空向量。

在一实施例中,所述根据所述多个字向量的所述特征信息和所述双向编码信息,得到识别结果包括:根据所述多个字向量的所述特征信息和所述双向编码信息得到多条预测路径;所述预测路径表征所述多个字向量的排列顺序;对所述多条预测路径进行评估,得到多个评估结果;以及选取所述多个评估结果中的最优结果对应的预测路径作为所述识别结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏曼荼罗软件股份有限公司,未经江苏曼荼罗软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110965679.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top