[实用新型]重复文本识别系统无效
申请号: | 200920005254.7 | 申请日: | 2009-04-07 |
公开(公告)号: | CN201570025U | 公开(公告)日: | 2010-09-01 |
发明(设计)人: | 胡达明;冼家扬 | 申请(专利权)人: | 慧科讯业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 郭伟刚 |
地址: | 中国香港湾仔告士打道*** | 国省代码: | 中国香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 文本 识别 系统 | ||
技术领域
本实用新型涉及文本处理系统,特别涉及一种重复文本识别系统。
背景技术
信息技术的发展为人们提供了广阔的获取信息的空间,人们可以通过网络等获取大量的电子文本内容,例如新闻、报道、论文、论坛发帖等。然而,上述电子文本中存在大量的重复内容。为节省用户浏览这些电子文本内容的时间,需要识别并过滤掉这些电子文本内容数据库中的重复内容。
现有的搜索引擎中具有去除冗余内容的功能,但效果并不理想。例如申请号为“200580035487.6”、名称为“重复文档检测及表示功能”的中国专利提供了一种重复文档的检测方法,基于文档标识符来比较文档的文档签名数据结构,并确定文档的长度是否匹配,若两者都满足,则确认为重复文档。
然而,由于重复内容多来自转载,且在转载过程中比如有少许变动,显然上述专利无法对转载内容进行有效去除。如果这部分转载的内容不能去除,则仍然存在大量的重复内容。
实用新型内容
本实用新型要解决的技术问题在于,针对上述重复内容无法有效识别的问题,提供一种重复文本识别系统。
本实用新型解决上述技术问题的技术方案是,提供一种重复文本识别系统,包括:用于将电子文本内容按照标点符号分割为多个短句的分割单元、用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列的转换单元、用于存储数字序列组的搜索引擎、用于在搜索引擎中的两个数字序列组的相似度达到第一阈值时确认对应的电子文本内容为重复文本的判断单元,其中所述搜索引擎中存储的每一数字序列组包括同一电子文本内容的多个数字序列,所述分割单元、转换单元、搜索引擎及判断单元依次连接。
在本实用新型所述的重复文本识别系统中,还包括用于为每一电子文本内容分配一个唯一的内容标识号的分配单元。
在本实用新型所述的重复文本识别系统中,所述判断单元包括在确认当前电子文本内容对应的数字序列组与搜索引擎中所有数字序列组的相似度小于第一阈值时,将该当前电子文本内容的内容标识号作为群号并将该群号与数字序列组一起存储到搜索引擎的第一保存单元,所述第一保存单元分别与分配单元和搜索引擎连接。
在本实用新型所述的重复文本识别系统中,所述判断单元包括在确认当前电子文本内容对应的数字序列组与搜索引擎中的相似度最大的数字序列组的相似度大于或等于第一阈值时,将所述相似度最大的数字序列组的群号作为当前电子文本内容的群号并将该群号与数字序列组一起存储到搜索引擎的第二保存单元,所述第二保存单元分别与分配单元和搜索引擎连接。
在本实用新型所述的重复文本识别系统中,还包括在搜索引擎中具有相同群号的数字序列组超过第二阈值时检查这些数字序列组中的数字序列是否为噪音并将所述噪音对应的数字序列清除出数字序列组的检查单元,所述检查单元与搜索引擎连接。
在本实用新型所述的重复文本识别系统中,还包括对检查单元清除噪音对应的数字序列后的具有相同群号的数字序列组的相似度重新判断并重新为所述数字序列组设置群号的重判断单元,所述重判断单元与搜索引擎及检查单元连接。
在本实用新型所述的重复文本识别系统中,还包括将电子文本内容分割所得的短句进一步分割为术语的再分割单元、用于根据术语在电子文本内容中的位置及出现次数进行加权计算的术语计算单元、用于根据所述术语计算单元计算的术语的权值计算短句的权值的短句计算单元以及将短句的权值超过第三阈值的短句对应的数字序列清除出数字序列组的清扰单元,其中所述再分割单元与分割单元连接,所述术语计算单元与在分割单元连接,所述清扰单元与术语计算单元和搜索引擎连接。
在本实用新型所述的重复文本识别系统中,所述转换单元为哈希运算单元。
本实用新型的重复文本识别系统具有以下有益效果:通过将电子文本内容分割后的各部分转换为数字序列,并根据数字序列组进行相似度判断,从而提高了相似度判断的效率及效果。本实用新型还通过减少数字序列组中的噪音,进一步提升了相似度判断的准确性。
附图说明
下面将结合附图及实施例对本实用新型作进一步说明,附图中:
图1是本实用新型重复文本识别系统第一实施例的结构示意图;
图2是本实用新型重复文本识别系统第二实施例的结构示意图;
图3是本实用新型重复文本识别系统第三实施例的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧科讯业有限公司,未经慧科讯业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200920005254.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢筋处理设备
- 下一篇:一种用于汽车发动机排气歧管加工的管端成型机