[发明专利]一种微博突发话题检测方法及装置有效
申请号: | 201510236634.1 | 申请日: | 2015-05-11 |
公开(公告)号: | CN106294333B | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 贺敏;王丽宏;周勇林;云晓春;程学旗;包秀国;马宏远;丁丽;刘玮;刘悦;赵立永;杨建武 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/953 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 梁军 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。 | ||
搜索关键词: | 一种 突发 话题 检测 方法 装置 | ||
【主权项】:
1.一种微博突发话题检测方法,其特征在于,包括:提取指定的微博数据集合中的特征项,所述特征项为包含具体语义的语言单元;确定所述特征项在所述微博数据集合的文本中的流通度以及所述特征项当前的热度;以所述流通度为质量参数项,以所述热度为位置参数项对所述特征项进行动力学建模,得到所述特征项的当前能量和加速度;在得到的所述能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算所述突发特征项之间的互信息;当所述互信息大于第三阈值时,对所述突发特征项进行合并,得到突发话题;所述以所述流通度为质量参数项,以所述热度为位置参数项对所述特征项进行动力学建模,得到所述特征项当前的能量和加速度,包括:根据统计所述特征项i在选定的历史微博数据集合中的词频tf以及逆向文件频率idf按照公式1计算得到所述质量参数项m:公式1:m(i)=tf(i)×idf(i);根据所述特征项在时刻t出现的频次tf(t,i)、在时刻t出现的文档频次df(t,i)、以及在时刻t微博内容包含所述特征项的博主数af(t,i)按照公式2计算得到所述位置参数项x;公式2:x(t,i)=a×tf(t,i)+b×df(t,i)+c×af(t,i);其中所述a、b以及c是调节参数;根据所述质量参数项、所述位置参数项以及动力学模型,使用速度计算公式、加速度计算公式以及动量计算公式计算得到所述特征项的当前能量和加速度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510236634.1/,转载请声明来源钻瓜专利网。