[发明专利]一种基于大数据的话题检测方法及装置有效
申请号: | 201310075129.4 | 申请日: | 2013-03-08 |
公开(公告)号: | CN103177090B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100081 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 话题 检测 方法 装置 | ||
技术领域
本发明涉及互联网信息处理技术领域,特别是涉及一种基于大数据的话题检测方法及装置。
背景技术
随着互联网的高速发展,网络上的信息越来越多元和丰富,与此同时,网络舆情的社会影响力不断增强,很多社会热点事件都是在网络中第一时间披露和传播,网络话题检测因而愈发显现出其重要价值。在互联网环境中,存在大量自然语言形式的网页文本,其类型包括新闻、博客、论坛帖子以及新兴的微博等,这些网页文本为发现热点话题提供了最基本的数据来源。
美国国防部开展的TDT(话题检测与跟踪,Topic Detection and Tracking)项目最早展开了话题检测方面的研究,并取得了一定的进展。
根据话题检测进行的时间,目前的话题检测方法可以分为回溯检测和在线检测两种。其中,回溯检测首先获取全部的网页,然后对获取的网页文本利用传统的文本聚类算法进行聚类,以发现其中包含的话题;在线检测则以在线的形式从实时获取到的网页文本流中标识新话题的开始位置,并将新话题加入到已有的话题中去。
上述两种话题检测方法各有其优劣。其中,回溯检测方法的优势在于可以选择一些效果较佳的文本挖掘算法对收集到的网页数据进行离线处理,故能够得到较为优化的结果,但由于其以离线的方式处理网页数据,故其最大的缺点是时效性差;在线检测方法目前受到越来越多的关注,其能满足热点话题实时检测的需求,但由于受到处理时间的约束,其所使用的算法一般比较简单,故跟回溯检测方法相比检测效果还存在一定差距。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够解决在互联网环境中大量网页文本快速更新的情况下,话题检测面临的检测效果准确性与时效性的尖锐矛盾。
发明内容
本发明所要解决的技术问题是提供一种基于大数据的话题检测方法及装置,能够在互联网环境中大量网页文本快速更新的情况下,同时保证检测效果的准确性和时效性。
为了解决上述问题,本发明公开了一种基于大数据的话题检测方法,包括:
依据用户网络行为数据抽取热点网页;
采集所述热点网页的内容;
依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;
依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;
以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;
针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
可选的,所述用户网络行为数据包括用户访问行为数据和用户搜索行为数据中的一项或多项;则所述依据用户网络行为数据抽取热点网页的步骤,包括:依据所述用户访问行为数据,获取用户访问量或用户访问频率符合第一预置条件的网页,作为热点网页;和/或,依据所述用户搜索行为数据,获取用户搜索量或用户搜索频率符合第二预置条件的关键词所关联的网页,作为热点网页。
可选的,所述针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类的步骤,包括:当增量聚类后的某潜在热点话题类对应的用户关注度参数的加权处理结果与增量聚类后的所有潜在热点话题类对应的用户关注度参数的加权处理结果的比值大于第一阈值时,判定该潜在热点话题类为热点话题类。
可选的,所述以所述潜在热点话题类作为种子类,对新增网页进行增量聚类的步骤,包括:计算新增网页的网页特征向量与各潜在热点话题类的质心向量的相似度;在某新增网页的网页特征向量与某潜在热点话题类的质心向量的相似度大于等于第一相似度阈值时,将该新增网页加入至该潜在热点话题类。
可选的,所述潜在热点话题类的质心向量为对潜在热点话题类所包括的热点网页的网页特征向量进行加权处理得到,其中,某热点网页的网页特征向量的权重为依据该热点网页的用户访问量与该热点网页所属潜在热点话题类中所有热点网页的总用户访问量的比率确定。
可选的,还包括:针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数在以往时段内的变化,预测其是否为下一时段的热点话题类。
可选的,还包括:对所判定或预测的热点话题类进行提示,相应的提示内容包括:相应热点话题类的描述关键词。
可选的,所述描述关键词包括:相应热点话题类的所有网页的中共现度最高的若干个特征词。
可选的,所述用户关注度参数包括网页文档数量和用户网络行为数量。
相应的,本发明还公开了一种基于大数据的话题检测装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310075129.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:轮胎的防护装置
- 下一篇:一种矿用自卸车驾驶室门密封结构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置