[发明专利]一种基于大数据的话题检测方法及装置有效
申请号: | 201310075129.4 | 申请日: | 2013-03-08 |
公开(公告)号: | CN103177090B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100081 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 话题 检测 方法 装置 | ||
1.一种基于大数据的话题检测方法,其特征在于,包括:
依据用户网络行为数据抽取热点网页;
采集所述热点网页的内容;
依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;
依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;
以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;
针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
2.如权利要求1所述的方法,其特征在于,所述用户网络行为数据包括用户访问行为数据和用户搜索行为数据中的一项或多项;
则所述依据用户网络行为数据抽取热点网页的步骤,包括:
依据所述用户访问行为数据,获取用户访问量或用户访问频率符合第一预置条件的网页,作为热点网页;和/或
依据所述用户搜索行为数据,获取用户搜索量或用户搜索频率符合第二预置条件的关键词所关联的网页,作为热点网页。
3.如权利要求1所述的方法,其特征在于,所述针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类的步骤,包括:
当增量聚类后的某潜在热点话题类对应的用户关注度参数的加权处理结果与增量聚类后的所有潜在热点话题类对应的用户关注度参数的加权处理结果的比值大于第一阈值时,判定该潜在热点话题类为热点话题类。
4.如权利要求1所述的方法,其特征在于,所述以所述潜在热点话题类作为种子类,对新增网页进行增量聚类的步骤,包括:
计算新增网页的网页特征向量与各潜在热点话题类的质心向量的相似度;
在某新增网页的网页特征向量与某潜在热点话题类的质心向量的相似度大于等于第一相似度阈值时,将该新增网页加入至该潜在热点话题类。
5.如权利要求4所述的方法,其特征在于,所述潜在热点话题类的质心向量为对潜在热点话题类所包括的热点网页的网页特征向量进行加权处理得到,其中,某热点网页的网页特征向量的权重为依据该热点网页的用户访问量与该热点网页所属潜在热点话题类中所有热点网页的总用户访问量的比率确定。
6.如权利要求1所述的方法,其特征在于,还包括:
针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数在以往时段内的变化,预测其是否为下一时段的热点话题类。
7.如权利要求1至6中任一项所述的方法,其特征在于,还包括:
对所判定或预测的热点话题类进行提示,相应的提示内容包括:相应热点话题类的描述关键词。
8.如权利要求7所述的方法,其特征在于,所述描述关键词包括:相应热点话题类的所有网页的中共现度最高的若干个特征词。
9.如权利要求1至6中任一项所述的方法,其特征在于,所述用户关注度参数包括网页文档数量和用户网络行为数量。
10.一种基于大数据的话题检测装置,其特征在于,包括:
抽取模块,用于依据用户网络行为数据抽取热点网页;
采集模块,用于采集所述热点网页的内容;
提取模块,用于依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;
聚类模块,用于依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;
增量聚类模块,用于以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;及
判定模块,用于针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310075129.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:轮胎的防护装置
- 下一篇:一种矿用自卸车驾驶室门密封结构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置