[发明专利]相似文本的检索方法在审

专利信息
申请号: 201911367736.1 申请日: 2019-12-26
公开(公告)号: CN112307159A 公开(公告)日: 2021-02-02
发明(设计)人: 傅孙奇;张浩波;朱俊华;金旭龙;陆宏兵 申请(专利权)人: 上海携宁计算机科技股份有限公司
主分类号: G06F16/33 分类号: G06F16/33
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 郑裕涵
地址: 200030 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 相似 文本 检索 方法
【权利要求书】:

1.一种相似文本的检索方法,搜寻库存文本中与输入文本最相近的检索结果,其特征在于,所述相似文本的检索方法包括以下步骤:

提供一文本数据库,用于记录至少一库存文本,所述库存文本具有多个第一暂存子句与所属的多个第一文句指纹特征;

取得一输入文本;

将所述输入文本拆分为多个第二暂存子句,并计算每一所述第二暂存子句对应的一第二文句指纹特征;

选择相同内容的所述第一文句指纹特征与所述第二文句指纹特征;

根据选出的所述第一文句指纹特征与所述第二文句指纹特征取得对应的所述第一暂存子句与所述第二暂存子句,将所取得的所述第一暂存子句定义为一第三暂存子句,所取得的所述第二暂存子句定义为一第四暂存子句;

将所述第三暂存子句与所述第四暂存子句切分为多个特征片段;

以所述第三暂存子句与所述第四暂存子句为索引,并交互取所述特征片段的一片段交集与一片段并集;

遍历所述片段交集与所述片段并集的相互排列组合,并计算每一种组合所相应的一第一相似度值;

对所述片段交集与所述片段并集的相互组合以连续字符串的方式对每一组合给予赋值,并计算每一组和的赋值所对应的一第二相似度值;

选出大于一预设阀值的所述第二相似度值与相应的组合,所述选出的组合定义为一比对目标组;

根据所述第四暂存子句统计归类所述库存文本,并选出相似的所述第一暂存子句;

根据所述比对目标组、所述第一暂存子句与所选出的所述第二暂存子句计算一文本相似度;以及

选择最大值的所述文本相似度与对应的所述库存文本。

2.根据权利要求1所述的相似文本的检索方法,其特征在于,取得所述输入文本中还包括:正规化所述输入文本。

3.根据权利要求1所述的相似文本的检索方法,其特征在于,生成所述第一文句指纹特征与所述第二文句指纹特征的步骤还包括:所述第一暂存子句通过SimHash算法输出一第一哈希串,所述第二暂存子句通过SimHash算法输出一第二哈希串。

4.根据权利要求3所述的相似文本的检索方法,其特征在于,生成所述第一文句指纹特征与所述第二文句指纹特征的步骤还包括:

将所述第一哈希串切分为定量的位元组合并计算每一位元组合的一第一指纹值;

记录所有位元组合的所述第一指纹值并定义为所述第一文句指纹特征;

将所述第二哈希串切分为定量的位元组合并计算每一位元组合的一第二指纹值;以及

记录所有位元组合的所述第二指纹值并定义为所述第二文句指纹特征。

5.根据权利要求1所述的相似文本的检索方法,其特征在于,计算所述第一相似度值后的步骤还包括:

根据第一相似度决定切分的固定长度。

6.根据权利要求1所述的相似文本的检索方法,其特征在于,选出所述第三暂存子句的步骤还包括:

根据所述第二文句指纹特征查找出相同内容的所述第一文句指纹特征。

7.根据权利要求1所述的相似文本的检索方法,其特征在于,计算所述第一相似度值pi,其包括i为所述第三暂存子句与所述第四暂存子句的索引,ui为所述片段交集,vi为所述片段并集。

8.根据权利要求1所述的相似文本的检索方法,其特征在于,计算所述第二相似度值qi包括,所述第二相似度值ui为所述片段交集的元素个数,xj为所述片段交集的元素的对应元素在所述第三暂存子句中的切分字符串长度,ui为所述片段并集的元素个数,yj为所述片段并集的对应元素在所述第三暂存子句中的切分字符串长度。

9.根据权利要求1所述的相似文本的检索方法,其特征在于,计算所述文本相似度R包括,所述文本相似度n为所述第二暂存子句的数量,li为第二暂存子句的文字符串长度,si为所述第二相似度值。

10.根据权利要求8所述的相似文本的检索方法,其特征在于,统计归类所述库存文本的步骤还包括:

若所述库存文本中不存在与所述第二暂存子句,则所述文本相似度R设定为零。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携宁计算机科技股份有限公司,未经上海携宁计算机科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911367736.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top