[发明专利]相似网页检测方法、装置、存储介质及电子设备有效
申请号: | 201811369272.3 | 申请日: | 2018-11-16 |
公开(公告)号: | CN109710834B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 邹启波 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 11447 北京英创嘉友知识产权代理事务所(普通合伙) | 代理人: | 魏嘉熹;南毅宁 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开涉及一种相似网页检测方法、装置、存储介质及电子设备,在目标文本中选取第一预设个数的目标句子;使用第二预设个数的搜索引擎对每个目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页;获取所有目标网页中的网页文本信息;计算目标文本与网页文本信息的匹配率,并将匹配率大于第一预设阈值的网页确定为与目标文本相似的网页。这样,能够通过将待识别的目标文本分句,并利用搜索引擎进行搜索得到与所述目标文本具有相似内容的目标网页,通过对目标网页中的文本信息与目标文本进行匹配,从而实现将与目标文本相似的网页检测出来的效果,这样就能够轻松地检测到目标文本是否抄袭于其他的网页内容。 | ||
搜索关键词: | 目标文本 目标网页 预设 匹配 存储介质 电子设备 目标句子 搜索引擎 网页文本 相似网页 检测 搜索 计算目标 搜索结果 网页检测 网页内容 网页确定 文本信息 预设规则 分句 网页 文本 | ||
【主权项】:
1.一种相似网页检测方法,其特征在于,所述方法包括:/n在目标文本中选取第一预设个数的目标句子;/n使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页;/n获取所有所述目标网页中的网页文本信息;/n根据第三预设规则对所述目标文本进行分句,并计算所得到的所有句子分别在所述网页文本信息中的匹配分数,且针对每一个所述网页文本信息,将与所述网页文本信息的所述匹配分数大于第三预设阈值的句子在根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子中所占的比例作为所述目标网页的匹配率,其中,所述匹配分数用于表征所述目标文本中的句子与所述网页文本信息之间的相似程度,匹配分数越高,相似程度越高,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本与所述网页文本信息越相似;/n所述匹配分数的计算方法为:/n对根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子进行分词,并根据所述所有句子中包含的词的个数分别设置可移动窗口,通过逐词移动所述可移动窗口来进行所述所有句子与所述网页文本信息之间的匹配;/n在每次匹配中,若所述网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例不小于第五预设阈值,则计算所述目标文本中被匹配到且相邻的词之间的距离与词总数的第二比值,并将所述第二比值中最大的比值作为与所述可移动窗口相对应的句子的匹配分数,其中,所述词总数为所述可移动窗口中的总词数减一。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811369272.3/,转载请声明来源钻瓜专利网。