[发明专利]文本相似度分析的方法、装置及存储介质有效
申请号: | 202110651197.5 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113255369B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 方俊波 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 路亚芳 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 分析 方法 装置 存储 介质 | ||
本申请提供了一种文本相似度检测的方法、装置及存储介质,适用于大数据技术领域。其中,该文本相似度检测的方法,主要包括:获取与基础文本中基础段落相似度最高的一个或多个比对段落;然后,对基础段落和比对段落进行切词获取短语块,并计算各个短语块之间的最小编辑距离;再对最小编辑距离非零的短语块计算余弦相似度,确定两文本的相似内容。该方法通过对文本中表达不同的短语块进行语义相似度分析,能够获得更加准确的文本相似度检测结果。
技术领域
本申请涉及大数据技术领域,尤其涉及一种文本相似度检测的方法、装置及存储介质。
背景技术
目前,由多个字符所组成的文本已成为一种十分重要的信息载体。文本间相似度的计算,作为一种文本处理中所经常使用的方法,被应用于文本聚类、文本检索、数据挖掘等诸多应用场合。
现有的一种文本相似度的计算方式为:先分别对两个长文本进行切词,并获取切词后的切词,然后根据切词中的字符组成确定两文本中各切词间的相似度,进而根据所得到的相似度以及词频计算文本的整体相似度。
然而,现有的文本相似度的计算方式主要将表达相同的内容标记为相似内容,无法消除语义一致,但表达方式不一致的差异化影响,使得文本相似度的准确率较低。
发明内容
有鉴于此,本申请实施例提供了一种文本相似度检测的方法、装置及存储介质,以解决现有的文本相似性检测方式中无法对表达不同的内容进行语义检测,使得相似度检测结果准确性低的问题。
本申请实施例的第一方面提供了一种文本相似度检测的方法方法,包括:获取输入的基础文本和比对文本,所述基础文本包括至少一个基础段落,所述比对文本包括至少一个比对段落;根据所述基础段落和所述比对段落进行切词,获取所述基础段落对应的多个基础短语块,以及所述比对段落对应的比对短语块;计算所述基础短语块和所述比对短语块之间的最小编辑距离;当所述最小编辑距离为0时,输出所述基础短语块和所述比对短语块为相似词对;当所述最小编辑距离不为0时,计算所述基础短语块和所述比对短语块的余弦相似度,且当所述余弦相似度大于预设阈值时,输出所述基础短语块和所述比对短语块为相似词对。
根据本申请实施例提供的文本相似性检测的方法,通过对待检测的基础文本和比对文本中表达不同的短语块进行语义相似度分析,获得更加准确的文本相似度,并且通过对两个文本中相似通融进行联动显示,为用户查看相似内容提供便利,提升用户对相似内容的查看体验。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:根据分段识别符分别识别所述基础段落和所述比对段落;将所述基础段落和所述比对段落输入孪生网络;根据所述孪生网络获取每个所述基础段落对应的相似度最高的N个所述比对段落,N为大于或等于1的整数。
根据本申请实施例提供的文本相似度检测的方法,通过对基础文本和比对文本进行段落划分,相似度检测模型可以逐段读取数据,以便按照段落比对相似内容,避免按照整个长文本比对内容导致的比对效率低的问题。
结合第一方面,在第一方面的某些实现方式中,所述根据所述基础段落和所述比对段落进行切词,获取所述基础段落对应的多个基础短语块,以及所述比对段落对应的比对短语块,具体包括:根据所述基础段落和所述基础段落对应的相似度最高的N个所述比对段落进行切词,获取所述基础段落对应的多个基础短语块,以及所述比对段落对应的比对短语块。
根据本申请实施例提供的文本相似度检测的方法,通过本步骤中对基础段落和比对段落进行切词,获取多个的短语块,可以便于后续针对这些短语块进行相似度检测,细化了相似度检测的粒度,使相似度检测结果可以具体至行内的单个词语,相似度检测结果准确性更高。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:根据所述相似词对,对所述基础文本和所述比对文本中的目标内容进行联动显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110651197.5/2.html,转载请声明来源钻瓜专利网。