[发明专利]一种实体标准化方法有效
申请号: | 202110598353.6 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113255353B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 曾志贤;马涛;倪斌;汪姿如;庄福振;安竹林 | 申请(专利权)人: | 中科(厦门)数据智能研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/237;G06F40/284;G06F16/951;G06F16/35;G06N3/04 |
代理公司: | 安徽善安知识产权代理事务所(特殊普通合伙) 34200 | 代理人: | 陈庭 |
地址: | 361021 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 标准化 方法 | ||
本发明公开了一种实体标准化方法,包括以下步骤:步骤一:建立标准实体词的知识库;步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;步骤五:将候选实体集合中标准实体进行排序。本发明所述的一种实体标准化方法,相比于其他方法,不使用实体词的上下文信息,即能达到实体标准化的结果;通过添加实体的类型信息,作为实体匹配模型的一部分输入,就能有效的提高实体标准化的准确率,能较好的实现实体标准化任务。
技术领域
本发明涉及数据处理领域,特别涉及一种实体标准化方法。
背景技术
随着互联网的迅速发展,网络上充斥着各类文本信息,其中包含了公司名、学校名和组织机构名等各种实体词。由于自然语言表达的多样性,一个标准实体往往可以被多种形式进行表示,包括别名、简称和英文名等。为了正确理解别名、简称和英文名的真实含义,可以将文本信息中的实体词标准化为实体知识库中的无歧义实体,为信息检索和抽取、知识工程等任务提供强有力的支撑。
实体标准化旨在将文本信息中的实体词转化为实体的标准形式,其潜在的应用包括信息提取、信息检索和知识库填充。传统的实体标准化任务主要是针对长文档,长文档拥有充分的上下文信息,能够辅助完成实体标准化任务。而在面对一些实体上下文信息匮乏的场景,且实体名称又具有多样性和模糊性的特性,导致实体标准化任务存在极大的挑战。因此,能够找到一种方法,不使用实体词的上下文信息,就能解决实体标准化任务,是非常有意义的。
为此,我们提出一种实体标准化方法。
发明内容
本发明的主要目的在于提供一种实体标准化方法,首先通过词条建立标准实体词知识库,再使用标准实体词知识库构建模型训练数据,利用训练数据训练实体分类模型以及实体匹配模型,最后输入待识别的实体词,生成待识别实体词的候选实体集合,再通过实体分类模型以及实体匹配模型,对候选实体进行排序,选取匹配概率最高的候选实体,作为待识别实体词的标准实体,从而完成实体标准化的任务,可以有效解决背景技术中的问题。
为实现上述目的,本发明采取的技术方案为:
一种实体标准化方法,包括输入模块、处理模块、运行模块和输出模块,所述输入模块和处理模块相连,所述处理模块和运行模块连接,所述运行模块连接有输出模块,所述输入模块能够对用户输入的待识别实体进行接收;所述处理模块能够使用输入的待识别实体,通过预设的候选实体生成规则,从预选构建好的知识库中生成候选实体集合;所述运行模块能够对实体分类模型和实体匹配模型运行,并且对候选实体集合中的实体进行排序;所述输出模块能够对待识别实体的标准化实体进行输出,该方法包括以下步骤:
步骤一:建立标准实体词的知识库;
步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;
步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;
步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;
步骤五:将候选实体集合中标准实体进行排序。
进一步的,所述步骤三中的实体分类模型采用传统的TextCNN模型,所述步骤三中的实体分类流程包括如下步骤:
首先,输入待识别的实体词,在词嵌入层对实体词进行向量化;然后,在卷积层对词嵌入层进行卷积操作,以提取特征;然后,在池化层对卷积得到的结果进行最大池化;最后,在全连接层对得到的特征向量进行全连接操作,得到最后的实体词分类。
进一步的,将实体词分类的类型信息,作为一部分文本信息,融合到实体匹配模型中,所述实体匹配模型是基于BERT进行构建的,实体匹配流程包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科(厦门)数据智能研究院,未经中科(厦门)数据智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110598353.6/2.html,转载请声明来源钻瓜专利网。