[发明专利]一种文本相似度计算方法及系统在审
申请号: | 202211286844.8 | 申请日: | 2022-10-20 |
公开(公告)号: | CN116204612A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 石林灵 | 申请(专利权)人: | 超聚变数字技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/194;G06F40/289;G06F21/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 刘方 |
地址: | 450000 河南省郑州市郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 相似 计算方法 系统 | ||
本申请提供一种文本相似度计算方法及系统。方法包括:对第一文本进行分词得到第一分词结果,所述第一分词结果包括至少一个第一分词和每个所述第一分词的词权重;对于每一个所述第一分词,按照所述第一分词的哈希值和词权重生成所述第一分词的加权数字串;和对于每一个所述第一分词的加权数字串,进行向量化累加计算得到所述第一文本的序列串,以及对所述第一文本的序列串进行向量化降维得到所述第一文本的Simhash签名;获取第二文本的Simhash签名,并基于所述第一文本的Simhash签名和所述第二文本的Simhash签名,得到所述第一文本与所述第二文本的相似度。如此提升计算速度和整体效率。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本相似度计算方法及系统。
背景技术
随着计算机和互联网技术的发展,经常需要面对海量的数据和信息,这样给数据存储、数据处理及数据传输带来很大的挑战。这些数据和信息中往往存在许多相同或者相似的内容,通过去重、查重操作可以压缩数据规模便于存储和处理。此外,通过识别完全相同或者大体相同的内容也便于进行归类和建模以及提供如统计数据、抄袭判定等参考依据。另外,提供原始数据的一方和收集数据进行文本相似度计算的另一方之间也面临数据分享和隐私保护方面的挑战。
在现有技术中,缺乏一种有效的技术手段来高效判别两个对象例如两个文本内容之间的相似程度并给出可靠的量化指标,并且还能兼顾数据分享、隐私保护等方面。
综上所述,目前需要解决的问题是如何提供一种兼顾数据分享、隐私保护且能高效判别两个对象例如两个文本内容之间的相似程度并给出可靠的量化指标的技术方案。
发明内容
本申请实施例提供了一种文本相似度计算方法及系统,用于解决现有技术中存在的问题。
第一方面,本申请提供了一种文本相似度计算方法。所述方法包括:对第一文本进行分词得到第一分词结果,所述第一分词结果包括至少一个第一分词和每个所述第一分词的词权重;对于每一个所述第一分词,按照所述第一分词的哈希值和词权重生成所述第一分词的加权数字串;和对于每一个所述第一分词的加权数字串,进行向量化累加计算得到所述第一文本的序列串,以及对所述第一文本的序列串进行向量化降维得到所述第一文本的Simhash签名;获取第二文本的Simhash签名,并基于所述第一文本的Simhash签名和所述第二文本的Simhash签名,得到所述第一文本与所述第二文本的相似度。
第二方面,本申请提供了一种系统。所述系统包括:分词单元,用于对第一文本进行分词得到第一分词结果,所述第一分词结果包括至少一个第一分词和每个所述第一分词的词权重;哈希计算单元,用于计算每一个所述分词的哈希值;加权数字串生成单元,用于对于每一个所述第一分词,按照所述第一分词的哈希值和词权重生成所述第一分词的加权数字串;累加计算单元,用于对于每一个所述第一分词的加权数字串,进行向量化累加计算得到所述第一文本的序列串;和降维单元,用于对所述第一文本的序列串进行向量化降维得到所述第一文本的Simhash签名。
第三方面,本申请实施例还提供了一种计算设备,所述计算设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现根据上述任一方面的任一种实现方式的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算设备上运行时使得所述计算设备执行根据上述任一方面的任一种实现方式的方法。
第五方面,本申请实施例还提供了一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在计算机可读存储介质上的指令,当所述指令在计算设备上运行时使得所述计算设备执行根据上述任一方面的任一种实现方式的方法。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于超聚变数字技术有限公司,未经超聚变数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211286844.8/2.html,转载请声明来源钻瓜专利网。