[发明专利]微博热点话题自动检测方法及装置在审
申请号: | 201310536067.2 | 申请日: | 2013-11-01 |
公开(公告)号: | CN104615593A | 公开(公告)日: | 2015-05-13 |
发明(设计)人: | 赵立永;于晓明;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点话题 自动检测 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,特别涉及一种微博热点话题自动检测方法及装置。
背景技术
随着Twitter和新浪微博用户群体规模的迅速扩大,由用户生成的短消息也呈现爆炸式增长,信息的时效性也越来越强,通过浏览每条信息来了解当前的热点事件已经不可能实现。现有的微博热点话题检测方法通常采用基于语义扩展的方法。该方法针对微博消息短小,能够提取的特征词项比较少的特点,通过语义相关性来扩展特征向量的维度,来提高短文本之间相似度计算的准确性,进而提高微博中热点话题检测的效果。
但对于基于语义扩展的方法,通过引入语义计算和提高特征向量的维度来提高热点话题检测的准确性,造成了计算复杂度的大幅度提高,很难满足海量微博数据分析的实际需求;另外,潜在语义分析(LSI)本身也是基于概率统计的方法,并没有考虑句子的结构、词在句子中的位置关系等信息,还不能完全解决语义歧义的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何减小热点话题检测的复杂度,并实现有效的热点话题检测。
(二)技术方案
为解决上述技术问题,本发明提供了一种微博热点话题自动检测方法,所述方法包括以下步骤:
S1:抓取待检测的微博文本;
S2:对所述微博文本进行关键词提取;
S3:根据各个关键词之间的相关性,获取关键词组;
S4:根据各个关键词组之间的相关性,对所述关键词组进行聚类,以获得候选关键词簇;
S5:计算每个候选关键词簇所代表话题的热度值,根据所述热度值对所述候选关键词簇进行排序,按照所述热度值从大到小顺序在所述候选关键词簇中选择N个关键词簇,并将所述N个关键词簇分别代表的话题作为热点话题,所述N为不小于1的整数。
其中,步骤S1和步骤S2之间还包括:对所述微博文本进行预处理,所述预处理包括:噪声过滤和/或文本去重。
其中,步骤S2包括:
S201:对所述微博文本进行分词处理,以获得所述微博文本中所有的词语,对所述词语进行词性标注,并统计所述词语的频次和文档频率;
S202:根据所述词语的频次、文档频率及词性计算每个词语的权重值;
S203:根据所述权重值对所述词语进行排序,选取为预设词性并且不在停用词表中的词语作为候选关键词,所述预设词性包括:形容词、动词、简称、地名、人名、机构名和专有名词;
S204:按照权重值从大到小顺序在所述候选关键词中选择预设个数m的关键词。
其中,步骤S202包括:
S2021:根据当前用户所关注的领域获取用户词典;
S2022:根据所述词语的频次、文档频率及词性并结合所述用户词典计算每个词语的权重值。
其中,步骤S204中,当所述候选关键词的数量w小于所述预设个数m时,则将所述候选关键词作为关键词,并按照权重值从大到小顺序在除所述候选关键词外的词语中选择m-w个词语作为关键词。
其中,步骤S3包括:
S301:遍历所述微博文本,在当前微博文本内具有两个关键词时,则将所述两个关键词作为关键词对,并依次判断所述当前微博文本内各个关键词对之间的距离是否为预设距离,每次判断为是,则将该关键词对的同现频度加1,以获得每个关键词对的同现频度;
S302:根据所述同现频度计算每个关键词对之间的卡方统计量;
S303:根据所述卡方统计量对所述关键词对进行排序,按照卡方统计量从大到小顺序在所述关键词对之中选择预设个数q的关键词对作为关键词组。
其中,步骤S303中,选择关键词对时,对于同一个关键词,只能被选择预设次数x。
其中,步骤S4包括:
S401:设当前关键词组中包括关键词w1和w2,并将当前关键词组的密度值设为关键词w1和关键词w2的卡方统计值;
S402:分别遍历关键词w1和关键词w2所在的其他关键词组,设所述其他关键词组中的待并入关键词为wi,对关键词wi进行判断,若满足Ds(cws∪wi)≥Ds(cws)/2,则将关键词wi并入当前关键词组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310536067.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据更新方法及装置
- 下一篇:基于上下文的前向输入纠错方法和装置