[发明专利]一种信息全文检索的数据去重清理方法及系统在审
申请号: | 201910280637.3 | 申请日: | 2019-04-09 |
公开(公告)号: | CN110147363A | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 何宬呈;赵鑫 | 申请(专利权)人: | 华迪计算机集团有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/335 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽楼 |
地址: | 100192 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种信息全文检索的数据去重清理方法及系统,包括:对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据;对每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据每个数据单元的摘要码对无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据;按照预设的合法性筛查策略对所述经过去重处理的检索数据中的每个数据单元进行合法性筛查,以获取合法的检索数据加入到索引库。本发明在去重时采用双重摘要次第比对的排重方式,达到了效率与准确性的同时提升;通过计算数据单元的敏感度值,以量化的方式标记文档数据的威胁程度,保证了检索系统的安全和政治方向的正确。 | ||
搜索关键词: | 检索数据 去重 数据单元 信息全文 纯文本 合法性 筛查 检索 检索系统 方式标记 格式处理 计算数据 文档数据 摘要计算 敏感度 索引库 比对 预设 采集 量化 威胁 合法 安全 保证 | ||
【主权项】:
1.一种信息全文检索的数据去重清理方法,其特征在于,所述方法包括:对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据;对所述无格式的纯文本内容的检索数据中的每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据所述每个数据单元的摘要码对所述无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据;按照预设的合法性筛查策略对所述经过去重处理的检索数据中的每个数据单元进行合法性筛查,以获取合法的检索数据加入到索引库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华迪计算机集团有限公司,未经华迪计算机集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910280637.3/,转载请声明来源钻瓜专利网。