[发明专利]一种目录数据比对方法有效
申请号: | 202111162733.1 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113792188B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 蒋国权;周泽云;严浩;袁震;陈端兵;曹建军;刘姗姗;汪挺;丁鲲;翁年凤 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06F40/194;G06F40/279 |
代理公司: | 江苏瑞途律师事务所 32346 | 代理人: | 韦超峰;白晓宇 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目录 数据 方法 | ||
本发明公开了一种目录数据比对方法,属于文本比对技术领域。该方法包括:首先根据两个目录条目的层次码建立目录树,所述目录树包括基准目录树和比对目录树,所述目录树的每个节点为目录的一个条目;然后比对条目节点类型相同的节点,文本字符串完全相同的判断为完全匹配节点;最后对目录树中已匹配条目周边的节点,根据字符匹配相似度和邻域结构信息进行匹配,通过设置不同的置信度,循环迭代处理剩余节点,完成所有目录条目的匹配。能够克服单纯依靠字符匹配,文本相似度较低而结构相似度较高,引起的无法匹配的问题以及无法用文本字符信息来进行匹配的问题,从而有效地提高了目录数据比对的准确率。
技术领域
本发明属于文本比对技术领域,具体涉及一种目录数据比对方法。
背景技术
由于目录数据来源于不同单位、不同系统,目录数据中表达同一实体的条目在表达和描述上可能存在差异。在跨部门、跨系统的业务协同、数据融合等工作中,经常需要对不同部门、不同单位、不同系统的目录数据进行比对,使得两个目录数据中的条目能一一对应,如单位目录、资产目录、设备目录等等,以实现不同单位、不同系统的数据整合。
目录条目的数据量信息相对较少,仅仅是少数几个词组成的短文本,本质上是要判断两个短文本描述的实体对象是否为同一对象。比对过程中,可用信息较少,通过人工比对的方式,消耗时间长且容易出错,采用纯粹的基于文本相似的比对方式,由于信息少,没有太多的文本上下文信息,比对准确率通常较低,如电脑和计算机,从名字上看完全不具有相似性,但这两个描述却是指代的同一条目实体。一般而言,目录数据都具有层次结构,部分目录还具有层次码,根据其层次结构或层次码,可以将目录数据转化为树形结构表达的数据,相同的实体具有相似的局部结构,而在以往的比对模式中,常常忽略了这一重要特征。
现有技术中,存在很多用于进行比对的技术,例如,专利号为201910025419.5的中国发明专利公开了一种基于知识图谱的快速知识对比方法及系统。该专利中,该方法首先构建知识表示单元,将各领域词条拆分解析成知识表示单元;构建知识图谱,包括将知识表示单元保存到图数据库中形成知识图谱,领域词条之间形成多对多的图结构关系;构建需对比的领域概念,包括确定需要进行比较的领域概念,拆分解析成知识表示单元,存入知识图谱并建立不破坏原图结构的临时提及关系;抽取领域概念的多级拓扑;对比多级拓扑,计算出拓扑节点权重,然后计算出领域概念的带权相似度,得到知识对比结果。然而该专利中所涉及的方法计算方式较为复杂,而且使用神经网络模型得到文本特征表示,需要花费较多的硬件资源和时长。
再比如,申请号为201810090296.9的中国发明专利申请公开了一种短文本相似度计算方法及系统,该专利首先对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;然后,分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;再次,计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;最后,计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。然而,本专利申请所涉及的方法计算方式较为复杂,需要训练词向量,对于未训练的新词,准确率较低。
现有技术中的方法,单纯依靠字符匹配,文本相似度较低,而结构相似度较高,引起的无法匹配的问题,同时现有技术无法用字符信息进行匹配,以上问题会对目录数据比对的准确率产生影响。
发明内容
技术问题:针对现有技术存在的问题,本发明提供一种目录数据比对方法,从而能够克服单纯依靠字符匹配,文本相似度较低而结构相似度较高,引起的无法匹配的问题以及无法用文本字符信息来进行匹配的问题,从而有效地提高了目录数据比对的准确率。
技术方案:本发明提供一种目录数据比对方法,包括:
S100:根据两个目录条目的层次码建立目录树,包括基准目录树和比对目录树,所述目录树的每个节点为目录的一个条目;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111162733.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置