[发明专利]一种互联网信息筛选系统及方法在审

专利信息
申请号: 201510536772.1 申请日: 2015-08-27
公开(公告)号: CN105117466A 公开(公告)日: 2015-12-02
发明(设计)人: 杨裕芬 申请(专利权)人: 中国电信股份有限公司湖北号百信息服务分公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06K9/62
代理公司: 北京轻创知识产权代理有限公司 11212 代理人: 杨立
地址: 430000 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 信息 筛选 系统 方法
【权利要求书】:

1.一种互联网信息筛选系统,其特征在于,包括通信单元、预处理单元、权重计算单元、策略单元、阈值筛选单元和执行单元;

所述通信单元,其用于收集互联网的文档组成文档库,并将文档库内的文档信息传给预处理单元;还用于收集互联网的待分类文档,并将待分类文档信息传给分类器单元;

所述预处理单元,其用于对文档库内的文档进行预处理,包括对文档库内的文档进行归类,分词去噪和频数统计;所述将文档进行归类是指将文档按文档编号、文档内容和文档属性分别归类,所述将文档进行分词去噪是指对已归类文档进行分词去噪,得到的词条作为value输出,把词条所属的文档属性对作为key输出;所述对文档进行频数统计是指将具有相同文档属性的value合并,并统计属于同种文档属性的value队列中不同value的频数;

所述权重计算单元,其用于对预处理后的文档进行权重计算,具体为计算出每个文档中每个词的权重,取权重最大的前K个词作为此文档的特征词,并合并所有文档的特征词,组成特征词空间,将得到的文档权重结果映射到特征词空间上,得出各类文档的类中心向量;

所述分类器单元,其用于对待分类文档进行频数统计,得出针对每一文档的词条频数的统计结果,算出每一文档在特征词空间上的权值,利用权重计算单元算出的文档库内的文档的类中心向量,按照反馈机制对待分类文档进行分类,得到待分类文档与文档库内的文档的相似度结果;

所述策略单元,其用于设置筛选待分类文档与文档库内的文档的相似度的阈值;

所述阈值筛选单元,其用于按照策略单元设置的阈值在在待分类文档中进行筛选,得到目标文档。

2.根据权利要求1所述互联网信息筛选系统,其特征在于,还包括执行单元,其用于将促销商品内容加载在阈值筛选单元筛选后的目标文档中,并把加载后的文档数据信息通过通信单元传到互联网。

3.根据权利要求1所述互联网信息筛选系统,其特征在于,所述权重计算单元采用的是改进TFIDF=TFxlog(m=(m+k)xN)算法,其中TF表示某一特征项的词频,m表示该特征项的领域内文档频率,k表示该特征项的非领域内文档频率,N表示全部文档数。

4.根据权利要求1所述互联网信息筛选系统,其特征在于,所述的分类器的采用的反馈机制,指的是以待分类文档与文档库内的文档的类中心向量的距离为依据,在分类过程中更新类中心向量;所述的更新类中心向量依据的是公式ci=a·ci+b·wi其中ci为第i类的类中心向量,wi是第i类的文档向量,a、b为反馈系数,且a+b=1。

5.根据权利要求1所述互联网信息筛选系统,其特征在于,所述分类器单元的频数统计采用的是基于MapReduce的Rocchio算法。

6.一种互联网信息筛选方法,其特征在于,包括以下步骤:

(1)收集互联网的文档组成文档库;

(2)对文档库内的文档进行预处理,包括对文档进行归类,分词去噪和频数统计;所述将文档进行归类是指将文档按文档编号、文档内容和文档属性分别归类,所述将文档进行分词去噪是指对已归类文档进行分词去噪,得到的词条作为value输出,把词条所属的文档属性对作为key输出;所述对文档进行频数统计是指将具有相同文档属性的value合并,并统计属于同种文档属性的value队列中不同value的频数;

(3)对预处理后的文档进行权重计算,具体为计算出每个文档中每个词的权重,取权重最大的前K个词作为此文档的特征词,并合并所有文档的特征词,组成特征词空间,将得到的文档权重结果映射到特征词空间上,得出各类文档的类中心向量;

(4)收集互联网的待分类文档,对待分类文档进行频数统计,得出针对每一文档的词条频数的统计结果,算出每一文档在特征词空间上的权值,利用步骤(3)中的文档库内的文档的类中心向量,按照反馈机制对待分类文档进行分类,得到待分类文档与文档库内的文档的相似度结果;

(5)设置筛选待分类文档与文档库内的文档的相似度的阈值;

(6)按照设置的阈值在待分类文档中进行筛选,得到目标文档。

7.根据权利要求6所述互联网信息筛选方法,其特征在于,还包括将促销商品内容加载在阈值筛选单元筛选后的目标文档中,并把加载后的文档数据信息发送到互联网的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司湖北号百信息服务分公司,未经中国电信股份有限公司湖北号百信息服务分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510536772.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top