[发明专利]一种信息聚合方法及系统有效

专利信息
申请号: 201410144498.9 申请日: 2014-04-11
公开(公告)号: CN104978359B 公开(公告)日: 2018-07-17
发明(设计)人: 张浩 申请(专利权)人: TCL集团股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市君胜知识产权代理事务所(普通合伙) 44268 代理人: 王永文;刘文求
地址: 516006 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网站 信息库数据 信息聚合 信息库 权重 去重 排序 抓取 多个网站 数据融合 信息过滤 信息排序 预定信息 重新排列 热度 聚合 抽取 保留 配置
【权利要求书】:

1.一种信息聚合方法,其特征在于,包括步骤:

A、抓取多个网站的信息库数据,并为每一网站配置一个权重值;

B、对各网站的信息库数据进行去重处理,将各网站信息库数据中相同内容的信息过滤,只保留其中一条权重值最高的网站的信息;

C、按信息库中的信息排序将各网站去重处理之后的信息库数据进行重新排列;

D、将各网站按照权重大小进行排序,然后按照网站排序依次从各网站的信息库数据中抽取排列在前的信息,形成包含预定信息数量的聚合信息库;

所述步骤A中,根据各网站的用户数量为每一网站配置一权重值,其中,所述用户数量与所述权重值成正比。

2.根据权利要求1所述的信息聚合方法,其特征在于,所述步骤D具体包括:

D1、预先设置聚合信息库中的信息数量T;

D2、计算需从每个网站的信息库中抽取的平均信息数量X,X=T/N,N为网站的个数;

D3、判断是否有网站信息库数据中包含的信息数量小于X,当是时,转入步骤D4,当否时,转入步骤D5;

D4、按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,并将轮空的信息库剔除,然后继续按照网站排序逐条从各网站抽取排列在前的信息,直至抽取到T条信息;

D5、按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,直至抽取到T条信息;

D6、按照抽取的顺序对T条信息进行排序,形成聚合信息库。

3.根据权利要求1所述的信息聚合方法,其特征在于,所述网站为多媒体网站,所述信息为多媒体信息。

4.根据权利要求1所述的信息聚合方法,其特征在于,所述步骤B具体包括:

将各个网站信息库数据中各条信息的名称进行比较,将相同名称的信息过滤掉,只保留其中一条权重值最高的网站的信息。

5.根据权利要求1所述的信息聚合方法,其特征在于,所述步骤C中,在被去重的网站信息库数据中,被过滤掉的信息依次由后面的信息补上,形成重新排列之后的信息库。

6.一种信息聚合系统,其特征在于,包括:

抓取模块,用于抓取多个网站的信息库数据,并为每一网站配置一个权重值;

去重模块,用于对各网站的信息库数据进行去重处理,将各网站信息库数据中相同内容的信息过滤,只保留其中一条权重值最高的网站的信息;

重排模块,用于按信息库中的信息排序将各网站去重处理之后的信息库数据进行重新排列;

聚合模块,用于将各网站按照权重大小进行排序,然后按照网站排序依次从各网站的信息库数据中抽取排列在前的信息,形成包含预定信息数量的聚合信息库;

所述抓取模块具体用于,根据各网站的用户数量为每一网站配置一权重值,其中,所述用户数量与所述权重值成正比。

7.根据权利要求6所述的信息聚合系统,其特征在于,所述聚合模块具体包括:

数量设置单元,用于预先设置聚合信息库中的信息数量T;

平均信息数量计算单元,用于计算需从每个网站的信息库中抽取的平均信息数量X,X=T/N,N为网站的个数;

判断单元,用于判断是否有网站信息库数据中包含的信息数量小于X,当是时,按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,并将轮空的信息库剔除,然后继续按照网站排序逐条从各网站抽取排列在前的信息,直至抽取到T条信息,当否时,按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,直至抽取到T条信息;

排序单元,用于按照抽取的顺序对T条信息进行排序,形成聚合信息库。

8.根据权利要求6所述的信息聚合系统,其特征在于,所述网站为多媒体网站,所述信息为多媒体信息。

9.根据权利要求6所述的信息聚合系统,其特征在于,所述去重模块用于将各个网站信息库数据中各条信息的名称进行比较,将相同名称的信息过滤掉,只保留其中一条权重值最高的网站的信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410144498.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top