[发明专利]一种实体标准化方法有效
申请号: | 202110598353.6 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113255353B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 曾志贤;马涛;倪斌;汪姿如;庄福振;安竹林 | 申请(专利权)人: | 中科(厦门)数据智能研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/237;G06F40/284;G06F16/951;G06F16/35;G06N3/04 |
代理公司: | 安徽善安知识产权代理事务所(特殊普通合伙) 34200 | 代理人: | 陈庭 |
地址: | 361021 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 标准化 方法 | ||
1.一种实体标准化方法,包括输入模块、处理模块、运行模块和输出模块,所述输入模块和处理模块相连,所述处理模块和运行模块连接,所述运行模块连接有输出模块,其特征在于,所述输入模块能够对用户输入的待识别实体进行接收;所述处理模块能够使用输入的待识别实体,通过预设的候选实体生成规则,从预选构建好的知识库中生成候选实体集合;所述运行模块能够对实体分类模型和实体匹配模型运行,并且对候选实体集合中的实体进行排序;所述输出模块能够对待识别实体的标准化实体进行输出,该方法包括以下步骤:
步骤一:建立标准实体词的知识库;
步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;
步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;
步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;
步骤五:将候选实体集合中标准实体进行排序;
所述步骤三中的实体分类模型采用传统的TextCNN模型,所述步骤三中的实体分类流程如下步骤:
首先,输入待识别的实体词,在词嵌入层对实体词进行向量化;然后,在卷积层对词嵌入层进行卷积操作,以提取特征;然后,在池化层对卷积得到的结果进行最大池化;最后,在全连接层对得到的特征向量进行全连接操作,得到最后的实体词分类;
将实体词分类的类型信息,作为一部分文本信息,融合到实体匹配模型中,所述实体匹配模型是基于BERT进行构建的,实体匹配流程包括如下步骤:
首先,将待识别的实体词及其实体类型和候选实体词及其候选实体类型用[SEP]分隔符隔开作为BERT的输入;然后,输入经过BERT层后得到BERT层的输出,输入到池化层中进行池化操作;然后,在全连接层中进行全连接操作;最后,输出待识别的实体词是否与候选实体词匹配,且得出匹配概率;
所述步骤四的候选实体集合的生成方式如下:
(1)以字级别的形式,生成待识别实体与标准实体词知识库中的标准实体词的TF-IDF向量,再计算待识别实体与标准实体词的向量相似度,召回相似度前十的标准实体词加入到候选实体集合;
(2)通过计算待识别实体与标准实体词知识库中的标准实体词的词覆盖度,设定一个词覆盖度的阈值,返回高于阈值的标准实体词加入候选实体集合中;
(3)通过计算待识别实体与标准实体词知识库中的标准实体词的编辑距离,设定一个编辑距离的阈值,返回小于编辑距离阈值的标准实体加入到候选实体集合中;
通过三种方式生成待识别实体的候选实体集合。
2.根据权利要求1所述的一种实体标准化方法,其特征在于,所述步骤五的候选排序流程如下步骤:首先,从候选实体词的集合中逐一与待识别实体进行实体匹配,得到待识别的实体与候选实体正确匹配的概率;然后,通过对候选实体集合中的每一个候选实体都得出一个匹配概率;最后,选取匹配概率最高的候选实体,作为该待识别实体标准化后的实体。
3.根据权利要求1所述的一种实体标准化方法,其特征在于,所述步骤一中的构建标准实体词的知识库,包括如下步骤:
首先,利用爬虫技术,通过分类索引,从实体页面中,获取到标准的实体名称E、标准实体的别名A以及实体的分类C加入到标准实体知识库中;然后,一个实体名称对应的实体别名数量不小于零,所以知识库中的一条记录表示为{E,A1;A2···An,C};最后,爬取多个实体,即构建标准实体词的知识库。
4.根据权利要求1所述的一种实体标准化方法,其特征在于,所述步骤二中的构建模型的训练数据方法如下:
实体分类模型的训练数据是包括多组标注数据,每组标注数据包括标准的实体名称E以及该实体词的类型C,通过标准实体词知识库中的每条记录的标准实体名称E和实体的分类C字段,构建[E,C]训练数据,构建多条[E,C]数据作为实体分类模型的训练数据;
实体匹配模型的训练数据,通过标准实体词知识库中的每条记录的标准实体名称E和实体的别名A字段,来构造实体匹配模型的训练数据,构造标准实体名称及其别名则作为正样本,拼接标准实体名称以及其他标准实体名称的别名则作为负样本,正样本标签为0,负样本标签为1,标准实体词的知识库每条记录构建多条训练数据[EA1,0]、[EA2,0]、[EAn,0]、[EB1,1]、[EB2,1]、[EBn,1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科(厦门)数据智能研究院,未经中科(厦门)数据智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110598353.6/1.html,转载请声明来源钻瓜专利网。