[实用新型]重复文本识别系统无效
申请号: | 200920005254.7 | 申请日: | 2009-04-07 |
公开(公告)号: | CN201570025U | 公开(公告)日: | 2010-09-01 |
发明(设计)人: | 胡达明;冼家扬 | 申请(专利权)人: | 慧科讯业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 郭伟刚 |
地址: | 中国香港湾仔告士打道*** | 国省代码: | 中国香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本实用新型涉及一种重复文本识别系统,包括:用于将电子文本内容按照标点符号分割为多个短句的分割单元、用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列的转换单元、用于存储数字序列组的搜索引擎、用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的判断单元,其中所述搜索引擎中存储的每一数字序列组包括同一电子文本内容的多个数字序列,所述分割单元、转换单元、搜索引擎及判断单元依次连接。本实用新型通过将电子文本内容分割后的各部分转换为数字序列,并根据数字序列组进行相似度判断,从而提高了相似度判断的效率及效果。 | ||
搜索关键词: | 重复 文本 识别 系统 | ||
【主权项】:
一种重复文本识别系统,其特征在于,包括:用于将电子文本内容按照标点符号分割为多个短句的分割单元、用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列的转换单元、用于存储数字序列组的搜索引擎、用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的判断单元,其中所述搜索引擎中存储的每一数字序列组包括同一电子文本内容的多个数字序列,所述分割单元、转换单元、搜索引擎及判断单元依次连接。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧科讯业有限公司,未经慧科讯业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200920005254.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种钢筋处理设备
- 下一篇:一种用于汽车发动机排气歧管加工的管端成型机