[发明专利]一种文档相似段落的标记查询方法、系统、设备及存储介质在审

专利信息
申请号: 202110388914.X 申请日: 2021-04-12
公开(公告)号: CN113139374A 公开(公告)日: 2021-07-20
发明(设计)人: 刘俊辰;尤旸 申请(专利权)人: 北京明略昭辉科技有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F16/335;G06F16/338;G06F40/205;G06F40/284;G06F40/289
代理公司: 青岛清泰联信知识产权代理有限公司 37256 代理人: 赵燕
地址: 100089 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文档 相似 段落 标记 查询 方法 系统 设备 存储 介质
【说明书】:

发明公开了一种文档相似段落的标记查询方法、系统、设备及存储介质,上述方法包括:判断标记文本的长度是否大于第一长度阈值;若标记文本的长度小于第一长度阈值,则根据标记文本对文档库中的文档进行匹配获得查询结果并输出;或;若标记文本的长度大于第一长度阈值,则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。本发明将标记文本按照长度不同分为不同种类的标记文本,针对不同长度的标记文本采用不同的匹配策略,使查询结果更加准确。

技术领域

本发明涉及数据分析技术领域,尤其涉及一种文档相似段落的标记查询方法、系统、设备及存储介质。

背景技术

如今,很多企业都有大量的文档文本数据,包括产品手册,商业合同,部署文档等等专业性很强的文档。而为了便于统一管理,很多公司都会将这些文档数据集中起来,并且提供查询,阅读,推荐等智能化服务。通过提供文本相似段落的自动查询匹配服务可以帮助用户更好的利用文档库中的文本资源,提升文档资源的价值。文本相似段落自动查询匹配服务的基本功能是:用户在阅读时手动标记一段文字,标记后,系统通过使用NLP等相关技术,在后台从文档库的所有文档中自动匹配与标记段落内容相似的段落返回给用户。用户可以根据匹配结果找到内容相似的段落或文本作为参考。

现有技术大部分是类似于文本查重的解决方案。例如SimHash,大致计算过程如下:

1.对文档提取特征及特征对应的权重;

2.对特征进行hash,生成对应的hash值;

3.hash值加权:对特征hash值的每一位做循环处理:如果该位值为1,则用weight代替,否则,用-weight代替;

4.求和:将特征hash加权后的结果,按位求和,然后将结果按位二值化:大于0则为1,否则为0,即得到最后的SimHash值。

得到文档的SimHash值后,计算两篇文档SimHash值的海明距离,作为两篇文档的相似度。

但是,SimHash本身是Google用于对海量网页去重的算法,适用于整篇文档的相似性计算。而对于较短的文本段落,SimHash往往不能达到很好的效果。此外,SimHash并没有将文本的语义信息考虑进去,对于如中文这种表述方式非常灵活的语言环境,并且仅仅是同样涉及某一个或几个概念,而非大段内容相似的情况,SimHash无法得到准确的相似性结果。

发明内容

本发明针对上述的现有技术无法针对较短的文本段落进行相似性计算以及没有考虑文本的语义信息的技术问题,提出一种文档相似段落的标记查询方法、系统、设备及存储介质。

第一方面,本申请实施例提供了一种文档相似段落的标记查询方法,包括:

长度判断步骤S1:判断标记文本的长度是否大于第一长度阈值;

查询结果获得步骤S2:若所述标记文本的长度小于所述第一长度阈值,则根据所述标记文本对文档库中的文档进行匹配获得查询结果并输出;或;

查询结果获得步骤S2':若所述标记文本的长度大于所述第一长度阈值,则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。

上述文档相似段落的标记查询方法,其中,所述查询结果获得步骤S2包括:若所述标记文本的长度小于所述第一长度阈值,则在所述文档库中的全部文档中搜索所述标记文本,将所述标记文本所在的句子、所述句子在文档中的位置以及对应的文档名作为查询结果并输出。

上述文档相似段落的标记查询方法,其中,所述查询结果获得步骤S2'包括:

分割步骤S21':根据所述标记文本的长度对所述文档进行段落分割获得多个分割文本段落;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110388914.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top