[发明专利]一种信息全文检索的数据去重清理方法及系统在审
申请号: | 201910280637.3 | 申请日: | 2019-04-09 |
公开(公告)号: | CN110147363A | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 何宬呈;赵鑫 | 申请(专利权)人: | 华迪计算机集团有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/335 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽楼 |
地址: | 100192 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索数据 去重 数据单元 信息全文 纯文本 合法性 筛查 检索 检索系统 方式标记 格式处理 计算数据 文档数据 摘要计算 敏感度 索引库 比对 预设 采集 量化 威胁 合法 安全 保证 | ||
本发明涉及一种信息全文检索的数据去重清理方法及系统,包括:对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据;对每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据每个数据单元的摘要码对无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据;按照预设的合法性筛查策略对所述经过去重处理的检索数据中的每个数据单元进行合法性筛查,以获取合法的检索数据加入到索引库。本发明在去重时采用双重摘要次第比对的排重方式,达到了效率与准确性的同时提升;通过计算数据单元的敏感度值,以量化的方式标记文档数据的威胁程度,保证了检索系统的安全和政治方向的正确。
技术领域
本发明涉及数据处理技术领域,并且更具体地,涉及一种信息全文检 索的数据去重清理方法及系统。
背景技术
针对业界现主流的全文检索系统的数据采集方式,一般都用爬虫采集 与数据库直接采集两种方式。数据库直接采集一般用于现有可控的应用, 数据规范集中,重复数据与非法数据较少。爬虫采集范围较广,不可控数 据较多,获取到的数据格式较为规整但内容相对庞杂,存在大量的重复数 据和不符合相关法律法规的数据,这就需要对采集的数据进行清理与筛选。
一个全文搜索由搜索器、索引器、检索器和用户接口四个部分 组成。作为全文检索的重要组成部分,搜集器的功能是在网域中搜集同步 信息,并对数据进行去重和清理,以提供准确安全的数据搜索源。
现阶段已有检索系统大部分搜集器的爬虫采集部分,根据一定的采集 规则,采集过来的数据,不处理直接入检索库。数据重复率高、非法数据 较多。对数据质量有要求的检索系统,现行的去重过程一般采取两种方式: (1)以资源的实际访问地址为条件,进行实体数据去重。即ur l唯一性;(2) 全文内容匹配率比对,匹配率高的做剔除处理。内容合法性清理一般采取以 下方式:以固定的敏感词库为基础,入检索库时,将匹配到的敏感词的文档 做剔除处理。但是上述方案均存在缺点:对于去重过程来说,第一种的方 式在一定程度上过滤了物理重复、盗链和循环获取风险。但对于诸如通稿、 拷贝之类的逻辑重复却未做处理,库中还会相当的逻辑重复数据;第二种 的方式避免了逻辑重复,但由于是全文匹配,效率较慢、批量更新索引的 事务执行时间会大大延长。对于合法性处理的方式来说,相当程度上保证 数据合法性,然而处理方式过于粗暴。容易误删、多删。
因此,需要一种高效、准确地数据去重清理方法,以最大程度的保证 数据的准确合法。
发明内容
本发明提出一种信息全文检索的数据去重清理方法及系统,以解决如 何高效、准确地对采集的数据进行去重清理的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种信息全文检 索的数据去重清理方法,其特征在于,所述方法包括:
对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取 无格式的纯文本内容的检索数据;
对所述无格式的纯文本内容的检索数据中的每个数据单元进行摘要计 算,以获取每个数据单元的摘要码,并根据所述每个数据单元的摘要码对 所述无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理 的检索数据;
按照预设的合法性筛查策略对所述经过去重处理的检索数据中的每个 数据单元进行合法性筛查,以获取合法的检索数据加入到索引库。
优选地,其中利用爬虫程序进行数据采集,以获取初始的检索数据。
优选地,其中所述对采集的初始的检索数据中的每个数据单元进行去 格式处理,以获取无格式的纯文本内容的检索数据,包括:
对采集的初始的检索数据中的每个数据单元按照预设的信息类别进行 分隔,以获取无格式的纯文本内容的检索数据;其中,所述预设的信息类 别包括:格式描述符、空格、特殊符号和正文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华迪计算机集团有限公司,未经华迪计算机集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910280637.3/2.html,转载请声明来源钻瓜专利网。