[发明专利]一种互联网信息筛选系统及方法在审
申请号: | 201510536772.1 | 申请日: | 2015-08-27 |
公开(公告)号: | CN105117466A | 公开(公告)日: | 2015-12-02 |
发明(设计)人: | 杨裕芬 | 申请(专利权)人: | 中国电信股份有限公司湖北号百信息服务分公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及互联网信息筛选方法,属于计算机网络技术领域,通过收集互联网的文档组成文档库,对文档库内的文档进行预处理,包括对文档库内的文档进行归类,分词去噪和频数统计;对预处理后的文档进行权重计算,得出各类文档的类中心向量;对待分类文档进行频数统计,最后得到待分类文档与文档库内的文档的相似度结果;按照设置的阈值在待分类文档中进行筛选,得到目标文档,最后将促销商品内容加载在筛选后的目标文档中,并将文档数据信息传到互联网。本发明解决了针对特定类别而进行的海量热点事件信息文档的分类筛选问题,提高了处理速度,能在保证准确度的情况下大大提高系统的执行速度和效率。 | ||
搜索关键词: | 一种 互联网 信息 筛选 系统 方法 | ||
【主权项】:
一种互联网信息筛选系统,其特征在于,包括通信单元、预处理单元、权重计算单元、策略单元、阈值筛选单元和执行单元;所述通信单元,其用于收集互联网的文档组成文档库,并将文档库内的文档信息传给预处理单元;还用于收集互联网的待分类文档,并将待分类文档信息传给分类器单元;所述预处理单元,其用于对文档库内的文档进行预处理,包括对文档库内的文档进行归类,分词去噪和频数统计;所述将文档进行归类是指将文档按文档编号、文档内容和文档属性分别归类,所述将文档进行分词去噪是指对已归类文档进行分词去噪,得到的词条作为value输出,把词条所属的文档属性对作为key输出;所述对文档进行频数统计是指将具有相同文档属性的value合并,并统计属于同种文档属性的value队列中不同value的频数;所述权重计算单元,其用于对预处理后的文档进行权重计算,具体为计算出每个文档中每个词的权重,取权重最大的前K个词作为此文档的特征词,并合并所有文档的特征词,组成特征词空间,将得到的文档权重结果映射到特征词空间上,得出各类文档的类中心向量;所述分类器单元,其用于对待分类文档进行频数统计,得出针对每一文档的词条频数的统计结果,算出每一文档在特征词空间上的权值,利用权重计算单元算出的文档库内的文档的类中心向量,按照反馈机制对待分类文档进行分类,得到待分类文档与文档库内的文档的相似度结果;所述策略单元,其用于设置筛选待分类文档与文档库内的文档的相似度的阈值;所述阈值筛选单元,其用于按照策略单元设置的阈值在在待分类文档中进行筛选,得到目标文档。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司湖北号百信息服务分公司,未经中国电信股份有限公司湖北号百信息服务分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510536772.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于机车的LED辅助照明灯
- 下一篇:前后照明一体式自行车灯
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置