[发明专利]基于图结构的别名合并及存储方法、系统、终端、介质有效

专利信息
申请号: 202110375237.8 申请日: 2021-04-08
公开(公告)号: CN112765418B 公开(公告)日: 2022-04-01
发明(设计)人: 杨万征;蔡超;程国艮 申请(专利权)人: 中译语通科技股份有限公司
主分类号: G06F16/901 分类号: G06F16/901;G06F16/906;G06F40/247
代理公司: 北京万贝专利代理事务所(特殊普通合伙) 11520 代理人: 马红
地址: 100131 北京市石景山区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 结构 别名 合并 存储 方法 系统 终端 介质
【说明书】:

本发明属于数据处理技术领域,公开了一种基于图结构的别名合并及存储方法、系统、终端、介质,创建基础名称节点;挖掘关系,并构建辅助节点;构建边关系,生成图;重复创建基础名称节点、挖掘关系、构建辅助节点、构建边关系、生成图,对关系类型进行扩充;根据业务场景,自主选择关系类型,计算最大联通子图,同一子图即作为一组同名集合。本发明可同时存储多种关系类型,可根据场景自定义选择不同级别关系类型。本发明能够存储多跳关系,本发明关系构建过程回溯。本发明通过关系挖掘,可以不断进行图扩充;根据业务需求,可自由选择不同强度的关系;本发明能够存储多跳关系,通过路径查询,轻松进行关系回溯。

技术领域

本发明属于数据处理技术领域,尤其涉及一种基于图结构的别名合并及存储方法、系统、终端、介质。

背景技术

目前,信息化时代的飞速发展,各类文本信息蜂拥而至,各种渠道均会以其各自的习惯的方式进行文本信息的发布,尽管信息很多,但当对某一企业的信息进行收集整理时,取仍会无法尽数收集,因信息的发布并没有严格的规章制度,并不强制要求与企业工商名称一致,因此书写变更加多样性,不同信息源、不同书写机构、不同书写人均会导致名称不一致,同时存在不同语种的译文情况,因此需要对其进行整理、合并。

专利信息为例,申请企业名称并不一定同工商信息一致,因此即使是同一企业的专利信息,不同的代理机构,书写也会不同,如:北京***公司、***北京公司、***(北京)公司等,同时,涉及到专利海外布局情况,也会出现英文名称、韩文名称、日文名称等,受限转写时,采用不同的翻译软件,对外文的翻译也会存在出入。

当前常见技术手段如:误拼纠错、基于编辑距离合并、基于同一译文合并、构建多对一名称表等。

以上每种技术手段均有其严重的局限性。误拼纠错、基于编辑距离合并、基于同一译文合并等,均是基于字符级别的相似度进行计算,其置信度并不高,在舆情领域勉强能够接受,但,在一些严肃的场景下,一字之差完全可能就是完全不同的公司,并不适用。构建多对一关系在简单关系下能够满足,但对于多跳关系,在存储上便会遇到信息遗漏的问题,无法清晰回溯关系构建过程。

通过上述分析,现有技术存在的问题及缺陷为:不同合并方法的置信度不一致,无法适用于多个场景,同时在存储上会出现信息遗漏,无法清晰回溯关系构建过程。

解决以上问题及缺陷的难度为:需要考虑多种应用场景不同置信度级别的需求;需要考虑支持灵活的修改(如:方便删除错误关系,增加新关系);合并过程需要高可解释性

解决以上问题及缺陷的意义为:通过单一系统,同时存储不同置信度的合并关系,满足多种应用场景的使用。减小数据维护成本,仅需维护一份数据即可。

发明内容

针对现有技术存在的问题,本发明提供了一种基于图结构的别名合并及存储方法、系统、终端、介质。

本发明是这样实现的,一种基于图结构的别名合并及存储方法,所述基于图结构的别名合并及存储方法包括:

步骤一,创建基础名称节点;

步骤二,挖掘所述创建基础名称节点之间的关系,构建辅助节点;根据构建的所述辅助节点构建边关系,并生成图;

步骤三,重复生成图步骤,对所述边关系类型进行扩充;

步骤四,根据业务场景,自主选择所述边关系类型,计算最大联通子图,对同一子图作为一组同名集合。

进一步,所述步骤一之前还需进行:收集数据集合,对收集的数据进行清洗,并去除特殊字符以及标点符号。

进一步,所述创建基础名称节点包括:选取清洗后的数据中的关键词或标志词作为基础节点。

进一步,所述创建基础节点后还需进行:基于确定的基础节点,确定节点类型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110375237.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top