[发明专利]一种目录数据比对方法有效

专利信息
申请号: 202111162733.1 申请日: 2021-09-30
公开(公告)号: CN113792188B 公开(公告)日: 2023-09-12
发明(设计)人: 蒋国权;周泽云;严浩;袁震;陈端兵;曹建军;刘姗姗;汪挺;丁鲲;翁年凤 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F16/901 分类号: G06F16/901;G06F16/903;G06F40/194;G06F40/279
代理公司: 江苏瑞途律师事务所 32346 代理人: 韦超峰;白晓宇
地址: 210007 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 目录 数据 方法
【说明书】:

本发明公开了一种目录数据比对方法,属于文本比对技术领域。该方法包括:首先根据两个目录条目的层次码建立目录树,所述目录树包括基准目录树和比对目录树,所述目录树的每个节点为目录的一个条目;然后比对条目节点类型相同的节点,文本字符串完全相同的判断为完全匹配节点;最后对目录树中已匹配条目周边的节点,根据字符匹配相似度和邻域结构信息进行匹配,通过设置不同的置信度,循环迭代处理剩余节点,完成所有目录条目的匹配。能够克服单纯依靠字符匹配,文本相似度较低而结构相似度较高,引起的无法匹配的问题以及无法用文本字符信息来进行匹配的问题,从而有效地提高了目录数据比对的准确率。

技术领域

本发明属于文本比对技术领域,具体涉及一种目录数据比对方法。

背景技术

由于目录数据来源于不同单位、不同系统,目录数据中表达同一实体的条目在表达和描述上可能存在差异。在跨部门、跨系统的业务协同、数据融合等工作中,经常需要对不同部门、不同单位、不同系统的目录数据进行比对,使得两个目录数据中的条目能一一对应,如单位目录、资产目录、设备目录等等,以实现不同单位、不同系统的数据整合。

目录条目的数据量信息相对较少,仅仅是少数几个词组成的短文本,本质上是要判断两个短文本描述的实体对象是否为同一对象。比对过程中,可用信息较少,通过人工比对的方式,消耗时间长且容易出错,采用纯粹的基于文本相似的比对方式,由于信息少,没有太多的文本上下文信息,比对准确率通常较低,如电脑和计算机,从名字上看完全不具有相似性,但这两个描述却是指代的同一条目实体。一般而言,目录数据都具有层次结构,部分目录还具有层次码,根据其层次结构或层次码,可以将目录数据转化为树形结构表达的数据,相同的实体具有相似的局部结构,而在以往的比对模式中,常常忽略了这一重要特征。

现有技术中,存在很多用于进行比对的技术,例如,专利号为201910025419.5的中国发明专利公开了一种基于知识图谱的快速知识对比方法及系统。该专利中,该方法首先构建知识表示单元,将各领域词条拆分解析成知识表示单元;构建知识图谱,包括将知识表示单元保存到图数据库中形成知识图谱,领域词条之间形成多对多的图结构关系;构建需对比的领域概念,包括确定需要进行比较的领域概念,拆分解析成知识表示单元,存入知识图谱并建立不破坏原图结构的临时提及关系;抽取领域概念的多级拓扑;对比多级拓扑,计算出拓扑节点权重,然后计算出领域概念的带权相似度,得到知识对比结果。然而该专利中所涉及的方法计算方式较为复杂,而且使用神经网络模型得到文本特征表示,需要花费较多的硬件资源和时长。

再比如,申请号为201810090296.9的中国发明专利申请公开了一种短文本相似度计算方法及系统,该专利首先对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;然后,分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;再次,计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;最后,计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。然而,本专利申请所涉及的方法计算方式较为复杂,需要训练词向量,对于未训练的新词,准确率较低。

现有技术中的方法,单纯依靠字符匹配,文本相似度较低,而结构相似度较高,引起的无法匹配的问题,同时现有技术无法用字符信息进行匹配,以上问题会对目录数据比对的准确率产生影响。

发明内容

技术问题:针对现有技术存在的问题,本发明提供一种目录数据比对方法,从而能够克服单纯依靠字符匹配,文本相似度较低而结构相似度较高,引起的无法匹配的问题以及无法用文本字符信息来进行匹配的问题,从而有效地提高了目录数据比对的准确率。

技术方案:本发明提供一种目录数据比对方法,包括:

S100:根据两个目录条目的层次码建立目录树,包括基准目录树和比对目录树,所述目录树的每个节点为目录的一个条目;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111162733.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top