[发明专利]一种英文重复文本检测方法、系统、终端及存储介质在审
申请号: | 202010681512.4 | 申请日: | 2020-07-15 |
公开(公告)号: | CN111859901A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 刘斌;刘姝君 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/194;G06F40/126 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 英文 重复 文本 检测 方法 系统 终端 存储 介质 | ||
本发明公开了一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质,其中方法包括以下步骤:S1:选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值;S2:对每个字符利用周围字符的ASCII码值表示其特征;S3:利用自编码器对每个字符点的特征进行降维;S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复;其中本方法用于检测两段文本是否重复,以字符为单位进行相似度对比,提高了检测准确率,同时对文本进行去重处理,对预防抄袭等相关工作具有重要意义。
技术领域
本发明涉及文本相似度技术领域,尤其涉及一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质。
背景技术
随着网络技术的飞速发展,信息共享度不断升级,一方面为人们获取资料提供了方便,另一方面也为抄袭、剽窃、非法扩散等不道德行为提供了可乘之机。文本重复检测技术逐渐成为自然语言处理领域中一项重要的研究课题。它对遏制抄袭现象,保护数字产品具有重要意义。现有的英文重复文本检测技术主要分为以下两种:1、采用基于字符串匹配方法检测重复主要从文档中提取字符串,并将其作为文档检测的基本单位,然后将提取出来的字符串映射到散列表中,每个字符串都与一个数字相对应,最后统计两篇文档中相同的字符串占文本篇章的比率,通过相似度计算公式来计算出两篇文档之间的相似度,进而判别两篇文档间是否存在文本重复现象。这类算法没有很好地解决文本数据中存在的细微差异时的影响,这样对于搜索的精度产生很大的影响。2、如果采用基于词频统计的方法检测重复,根据各个词在文档中出现的次数,采用点积法、余弦法等计算两个文档向量之间的相似度,从而判断两篇文档间是否存在拷贝现象。优点是简单快速,结果比较符合实际情况。缺点是单纯以“词频”做衡量标准,不够全面,词性和词的出现位置等因素没有考虑到,而且有时重要的词可能出现的次数并不多,也无法体现词的位置信息。
发明内容
根据现有技术存在的问题,本发明公开了一种基于自编码器的英文重复文本检测方法,具体包括以下步骤:
S1:选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值;
S2:对每个字符利用周围字符的ASCII码值表示其特征;
S3:利用自编码器对每个字符点的特征进行降维;
S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复。
进一步的,所述选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值具体采用如下方式:将两段待对比的英文文本依照顺序,将所有字符,包括字母、标点、空格都逐个转化为其对应的ASCII码值,并分别储存在两个向量中。
进一步的,所述的对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式:按照输入顺序,将每个字符都看作一个特征点,每个点的特征存储在一个(N×2-1)×N矩阵中。从矩阵的第一行至最后一行,依次以N-1,N-2,……,1为半径,选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列以此向第一列和最后一列存放,其余位置以0补齐,其中N为当前字符的局部特征控制参数。
进一步的,所述的利用自编码器对每个字符点的特征进行降维具体采用如下方式:利用自编码器对每个特征点大小为(N×2-1)×N的特征进行降维,得到大小的特征;其中N和K代表大于1正整数、并且N大于K。
进一步的,所述的对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复具体采用如下方式:将每段文本中所有特征点的集合作为文本的特征,按照Jaccard相似度系数公式计算其相似度,公式如下:
其中,A和B分别代表两段文本的特征集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010681512.4/2.html,转载请声明来源钻瓜专利网。