[发明专利]实体名称识别方法、装置、计算机设备和存储介质有效
申请号: | 201811592664.6 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109753653B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 曾晶;邓理平;陈桓;张良杰 | 申请(专利权)人: | 金蝶软件(中国)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/08 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 名称 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种实体名称识别方法、装置、计算机设备和存储介质。所述方法包括:获取待识别文本中各词语分别对应的词向量;将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;提取所述名称候选集合中各候选实体名称分别对应的词向量;通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。本方法先筛选候选实体名称,再从候选实体名称中识别实体名称,通过两次双向长短记忆神经网络的处理,提高了实体名称识别的准确性。
技术领域
本申请涉及模式识别领域,特别是涉及一种实体名称识别方法、装置、计算机设备和存储介质。
背景技术
随着模式识别技术的发展,出现了命名实体识别技术(Named EntityRecognition,NER),旨在识别出自然语言文本中的专有名词,比如人名、地名、公司名称、组织机构名称等命名实体。
然而,传统的命名实体识别技术,通常是采用基于统计的模型,比如隐马尔科夫模型和支持向量机,需要利用人工标注的语料进行训练,对文本上下文的建模能力较弱,没有考虑到词语在文本中前后顺序的影响,对实体名称识别的准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高识别准确性的实体名称识别方法、装置、计算机设备和存储介质。
一种实体名称识别方法,所述方法包括:
获取待识别文本中各词语分别对应的词向量;
将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;
通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;
提取所述名称候选集合中各候选实体名称分别对应的词向量;
通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。
一种实体名称识别装置,其特征在于,所述装置包括:
向量获取模块,用于获取待识别文本中各词语分别对应的词向量;
特征得到模块,用于将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;
集合得到模块,用于通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;
向量提取模块,用于提取所述名称候选集合中各候选实体名称分别对应的词向量;
名称识别模块,用于通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别文本中各词语分别对应的词向量;
将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;
通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;
提取所述名称候选集合中各候选实体名称分别对应的词向量;
通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金蝶软件(中国)有限公司,未经金蝶软件(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811592664.6/2.html,转载请声明来源钻瓜专利网。