[发明专利]微博热点话题自动检测方法及装置在审
申请号: | 201310536067.2 | 申请日: | 2013-11-01 |
公开(公告)号: | CN104615593A | 公开(公告)日: | 2015-05-13 |
发明(设计)人: | 赵立永;于晓明;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点话题 自动检测 方法 装置 | ||
1.一种微博热点话题自动检测方法,其特征在于,所述方法包括以下步骤:
S1:抓取待检测的微博文本;
S2:对所述微博文本进行关键词提取;
S3:根据各个关键词之间的相关性,获取关键词组;
S4:根据各个关键词组之间的相关性,对所述关键词组进行聚类,以获得候选关键词簇;
S5:计算每个候选关键词簇所代表话题的热度值,根据所述热度值对所述候选关键词簇进行排序,按照所述热度值从大到小顺序在所述候选关键词簇中选择N个关键词簇,并将所述N个关键词簇分别代表的话题作为热点话题,所述N为不小于1的整数。
2.如权利要求1所述的方法,其特征在于,步骤S1和步骤S2之间还包括:对所述微博文本进行预处理,所述预处理包括:噪声过滤和/或文本去重。
3.如权利要求1所述的方法,其特征在于,步骤S2包括:
S201:对所述微博文本进行分词处理,以获得所述微博文本中所有的词语,对所述词语进行词性标注,并统计所述词语的频次和文档频率;
S202:根据所述词语的频次、文档频率及词性计算每个词语的权重值;
S203:根据所述权重值对所述词语进行排序,选取为预设词性并且不在停用词表中的词语作为候选关键词,所述预设词性包括:形容词、动词、简称、地名、人名、机构名和专有名词;
S204:按照权重值从大到小顺序在所述候选关键词中选择预设个数m的关键词。
4.如权利要求3所述的方法,其特征在于,步骤S202包括:
S2021:根据当前用户所关注的领域获取用户词典;
S2022:根据所述词语的频次、文档频率及词性并结合所述用户词典计算每个词语的权重值。
5.如权利要求3所述的方法,其特征在于,步骤S204中,当所述候选关键词的数量w小于所述预设个数m时,则将所述候选关键词作为关键词,并按照权重值从大到小顺序在除所述候选关键词外的词语中选择m-w个词语作为关键词。
6.如权利要求1所述的方法,其特征在于,步骤S3包括:
S301:遍历所述微博文本,在当前微博文本内具有两个关键词时,则将所述两个关键词作为关键词对,并依次判断所述当前微博文本内各个关键词对之间的距离是否为预设距离,每次判断为是,则将该关键词对的同现频度加1,以获得每个关键词对的同现频度;
S302:根据所述同现频度计算每个关键词对之间的卡方统计量;
S303:根据所述卡方统计量对所述关键词对进行排序,按照卡方统计量从大到小顺序在所述关键词对之中选择预设个数q的关键词对作为关键词组。
7.如权利要求6所述的方法,其特征在于,步骤S303中,选择关键词对时,对于同一个关键词,只能被选择预设次数x。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310536067.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据更新方法及装置
- 下一篇:基于上下文的前向输入纠错方法和装置