[发明专利]一种词条结构的合并方法有效
申请号: | 201710131120.9 | 申请日: | 2017-03-07 |
公开(公告)号: | CN108572953B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 马也驰;谭红 | 申请(专利权)人: | 上海颐为网络科技有限公司 |
主分类号: | G06F40/103 | 分类号: | G06F40/103;G06F40/284;G06F18/22 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
地址: | 200030 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词条 结构 合并 方法 | ||
本发明公开了一种词条结构的合并方法,能够自动将相近的词条结构进行合并,提升了用户检索词条、获取知识的效率。其技术方案为:将词条结构格式转化为文本格式;在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本;将合并后的文本格式再转化为词条结构格式。
技术领域
本发明涉及一种词条结构的合并方法,尤其涉及基于余弦相似度这一参数对词条结构进行合并的方法。
背景技术
在以词条结构为基础的信息平台上,随着用户数量的增加,会有很多用户对同样的知识体系进行定义和结构化。在用户对词条进行搜索的过程中,一个词条必然会出现众多相同或者相似的解释,这会给用户带来困扰,也会降低知识获取的效率。
以前遇到这样的情况,是由信息平台的管理人员手工对相似词条进行合并,然而这种手工合并的方式不仅费时费力,而且受限于管理人员自身的知识储备,手工合并的方式也会存在大量的合并失误。
因此,目前业界亟待可自动化的合并相近词条结构的方法。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种词条结构的合并方法,能够自动将相近的词条结构进行合并,提升了用户检索词条、获取知识的效率。
本发明的技术方案为:本发明揭示了一种词条结构的合并方法,包括:
步骤一:将词条结构格式转化为文本格式;
步骤二:在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本;
步骤三:将合并后的文本格式再转化为词条结构格式。
根据本发明的词条结构的合并方法的一实施例,在步骤一中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
根据本发明的词条结构的合并方法的一实施例,步骤二进一步包括:
步骤1:将第一文档作为合并主体,将第二文档作为合并次体;
步骤2:第二文档的根词条遍历第一文档的所有词条,得到相应的余弦相似度;
步骤3:比较步骤2中得到的余弦相似度,找到最大的余弦相似度的值;
步骤4:若步骤3得到的最大的余弦相似度的值大于第一阈值,则执行步骤5,否则执行步骤7;
步骤5:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中;
步骤6:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值,则将两词条合并,合并后的词条再重复进行步骤6,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束;
步骤7:将第二文档作为合并主体,将第一文档作为合并次体;
步骤8:第一文档的根词条遍历第二文档的所有词条,得到相应的余弦相似度;
步骤9:比较步骤8中得到的余弦相似度,找到最大的余弦相似度的值;
步骤10:若步骤9得到的最大的余弦相似度的值大于第一阈值,则执行步骤11,否则执行步骤13;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海颐为网络科技有限公司,未经上海颐为网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710131120.9/2.html,转载请声明来源钻瓜专利网。