[发明专利]一种实体标准化方法有效

专利信息
申请号: 202110598353.6 申请日: 2021-05-31
公开(公告)号: CN113255353B 公开(公告)日: 2022-08-16
发明(设计)人: 曾志贤;马涛;倪斌;汪姿如;庄福振;安竹林 申请(专利权)人: 中科(厦门)数据智能研究院
主分类号: G06F40/295 分类号: G06F40/295;G06F40/237;G06F40/284;G06F16/951;G06F16/35;G06N3/04
代理公司: 安徽善安知识产权代理事务所(特殊普通合伙) 34200 代理人: 陈庭
地址: 361021 福建省厦门*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实体 标准化 方法
【说明书】:

发明公开了一种实体标准化方法,包括以下步骤:步骤一:建立标准实体词的知识库;步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;步骤五:将候选实体集合中标准实体进行排序。本发明所述的一种实体标准化方法,相比于其他方法,不使用实体词的上下文信息,即能达到实体标准化的结果;通过添加实体的类型信息,作为实体匹配模型的一部分输入,就能有效的提高实体标准化的准确率,能较好的实现实体标准化任务。

技术领域

本发明涉及数据处理领域,特别涉及一种实体标准化方法。

背景技术

随着互联网的迅速发展,网络上充斥着各类文本信息,其中包含了公司名、学校名和组织机构名等各种实体词。由于自然语言表达的多样性,一个标准实体往往可以被多种形式进行表示,包括别名、简称和英文名等。为了正确理解别名、简称和英文名的真实含义,可以将文本信息中的实体词标准化为实体知识库中的无歧义实体,为信息检索和抽取、知识工程等任务提供强有力的支撑。

实体标准化旨在将文本信息中的实体词转化为实体的标准形式,其潜在的应用包括信息提取、信息检索和知识库填充。传统的实体标准化任务主要是针对长文档,长文档拥有充分的上下文信息,能够辅助完成实体标准化任务。而在面对一些实体上下文信息匮乏的场景,且实体名称又具有多样性和模糊性的特性,导致实体标准化任务存在极大的挑战。因此,能够找到一种方法,不使用实体词的上下文信息,就能解决实体标准化任务,是非常有意义的。

为此,我们提出一种实体标准化方法。

发明内容

本发明的主要目的在于提供一种实体标准化方法,首先通过词条建立标准实体词知识库,再使用标准实体词知识库构建模型训练数据,利用训练数据训练实体分类模型以及实体匹配模型,最后输入待识别的实体词,生成待识别实体词的候选实体集合,再通过实体分类模型以及实体匹配模型,对候选实体进行排序,选取匹配概率最高的候选实体,作为待识别实体词的标准实体,从而完成实体标准化的任务,可以有效解决背景技术中的问题。

为实现上述目的,本发明采取的技术方案为:

一种实体标准化方法,包括输入模块、处理模块、运行模块和输出模块,所述输入模块和处理模块相连,所述处理模块和运行模块连接,所述运行模块连接有输出模块,所述输入模块能够对用户输入的待识别实体进行接收;所述处理模块能够使用输入的待识别实体,通过预设的候选实体生成规则,从预选构建好的知识库中生成候选实体集合;所述运行模块能够对实体分类模型和实体匹配模型运行,并且对候选实体集合中的实体进行排序;所述输出模块能够对待识别实体的标准化实体进行输出,该方法包括以下步骤:

步骤一:建立标准实体词的知识库;

步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;

步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;

步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;

步骤五:将候选实体集合中标准实体进行排序。

进一步的,所述步骤三中的实体分类模型采用传统的TextCNN模型,所述步骤三中的实体分类流程包括如下步骤:

首先,输入待识别的实体词,在词嵌入层对实体词进行向量化;然后,在卷积层对词嵌入层进行卷积操作,以提取特征;然后,在池化层对卷积得到的结果进行最大池化;最后,在全连接层对得到的特征向量进行全连接操作,得到最后的实体词分类。

进一步的,将实体词分类的类型信息,作为一部分文本信息,融合到实体匹配模型中,所述实体匹配模型是基于BERT进行构建的,实体匹配流程包括如下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科(厦门)数据智能研究院,未经中科(厦门)数据智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110598353.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top