[发明专利]相似文本的检索方法在审

专利信息
申请号: 201911367736.1 申请日: 2019-12-26
公开(公告)号: CN112307159A 公开(公告)日: 2021-02-02
发明(设计)人: 傅孙奇;张浩波;朱俊华;金旭龙;陆宏兵 申请(专利权)人: 上海携宁计算机科技股份有限公司
主分类号: G06F16/33 分类号: G06F16/33
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 郑裕涵
地址: 200030 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 相似 文本 检索 方法
【说明书】:

本申请是一种相似文本的检索方法,包括以下步骤:提供文本数据库,库存文本具有多个第一暂存子句与多个第一文句指纹特征;输入文本拆分为多个第二暂存子句,计算第二文句指纹特征;选择相同内容的第一文句指纹特征与第二文句指纹特征;将取得的第一暂存子句定义为第三暂存子句,所取得的第二暂存子句为第四暂存子句;将第三暂存子句与第四暂存子句切分为多个特征片段;交互取特征片段的片段交集与片段并集;计算每一种组合的第一相似度值;第三暂存子句与第四暂存子句切分为切分字符串;对片段交集与片段并集的每一组合给予赋值,计算每一组合的赋值与第二相似度值;选择最大值的文本相似度与对应的库存文本,由句子相似度,汇总计算文本相似度。

技术领域

一种数字文本的检索方法,特别有关于一种相似文本的检索方法。

背景技术

在现有的机械研制系统中,存在海量的非结构化文档,当用户输入关键词进行搜索时,只能匹配搜索到包含该关键词的文档,存在一些语义相似的文档未能被搜索出来,因此需要实现相似性文档搜索,即需要计算海量文本的相似性。传统的方法将文本相似性问题转化为关键词、关键项或关键语句的相似性问题,容易出现以偏概全或以点带面现象,影响结果的准确性和完整性。另外,这些关键特征的提取需要耗费很多时间,且需要多种特征同时参与检索,在数据规模很大时则明显执行效率会大幅的降低。

发明内容

本申请所要解决的技术问题在于,库存的数字文本与输入文本的相似性比对。

为了解决上述问题,本申请的相似文本的检索方法包括以下步骤:提供文本数据库,用于记录至少一库存文本,库存文本具有多个第一暂存子句与所属的多个第一文句指纹特征;取得输入文本;将输入文本拆分为多个第二暂存子句,并计算每一第二暂存子句对应的第二文句指纹特征;选择相同内容的第一文句指纹特征与第二文句指纹特征;根据选出的第一文句指纹特征与第二文句指纹特征取得对应的第一暂存子句与第二暂存子句,将所取得的第一暂存子句定义为第三暂存子句,所取得的第二暂存子句定义为第四暂存子句;将第三暂存子句与第四暂存子句切分为多个特征片段;以第三暂存子句与第四暂存子句为索引,并交互取特征片段的片段交集与片段并集;遍历片段交集与片段并集的相互排列组合,并计算每一种组合所相应的第一相似度值;以固定长度将第三暂存子句与第四暂存子句切分为多组切分字符串;对片段交集与片段并集的相互组合以连续字符串的方式对每一组合给予赋值,并计算每一组和的赋值所对应的一第二相似度值;选出大于预设阀值的第二相似度值与相应的组合,前述选出的组合定义为比对目标组;根据比对目标组、第二暂存子句与所选出的第一暂存子句计算文本相似度;选择最大值的文本相似度与对应的库存文本。

本申请的相似文本的检索方法是利用文句切分与比对,并依据文句的切分片段在赋予相似度的比较,使得输入文本可以有效的比对到对应的库存文本。本申请的相似文本的检索方法更适用于局部敏感的文本,通过字符串特征的加权用于查找出合适的库存文本。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本申请的系统架构示意图。

图2A为本申请的库存文本的切分运作流程示意图。

图2B为本申请的库存文本的拆分句子示意图。

图2C为本申请的库存文本的正规化前示意图。

图2D为本申请的库存文本的正规化后示意图。

图2E为本申请的文句指纹特征的转换示意图。

图2F为本申请的第一文句指纹特征示意图。

图3为本申请的文本相似检测的运作示意图。

图4A为本申请的输入文本的句子切分示意图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携宁计算机科技股份有限公司,未经上海携宁计算机科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911367736.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top