[发明专利]一种挖掘微博话题趋势发起人的方法有效
申请号: | 201510255994.6 | 申请日: | 2015-05-19 |
公开(公告)号: | CN104866561B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 程工;刘春阳;李雄;王卿;张旭;庞琳;吴俊杰;胡晓倩 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 赵文利 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种挖掘微博话题趋势发起人的方法,属于数据挖掘领域。首先针对某一话题微博,以天为时间粒度,构造微博量随时间变化的趋势图,获取波峰点和波谷点,确定趋势的时间范围,提取微博高频词代表趋势主要内容,以趋势早期参与微博高频词的数量作为该条微博的内容相关度,降序排序后提取趋势制造者。根据趋势变化,以小时为时间粒度,构造趋势时间范围的微博数量变化图,获取斜率最大的时间范围作为增速最大的时间段,并对微博转发量降序排序,确定趋势推动者。本发明利用微博数据平台,具有高效性、鲁棒性和简洁性等优点,适用于对话题微博趋势发起人方面的分析,在社会舆情监控和信息传播分析等领域具有重要的应用价值。 | ||
搜索关键词: | 一种 挖掘 话题 趋势 发起人 方法 | ||
【主权项】:
1.一种挖掘微博话题趋势发起人的方法,用于获取微博话题的趋势制造者和趋势推动者,完成趋势发起人的挖掘,其特征在于:包括以下步骤:步骤一、针对某一话题微博,以天为时间粒度,构建参与该话题讨论的微博数量的时间趋势图;步骤二、获取时间趋势图中的波峰点;步骤201、将时间趋势图中所有离散点组成数组tc,将数组tc中的所有极大值点降序排列,前N1个点构成第一极大值点数组X1;N1为正整数,表示数组X1中元素个数;步骤202、在极大值点数组X1中,筛选连续的波峰点,得到第二极大值点数组X2;对于数组X1中相邻的两个元素xn与xn‑1,判断元素xn对应的微博发布量是否与xn‑1中的微博发布量相同,如果相同,将xn从数组X1中删除,否则,不进行删除操作;将数组X1中所有元素判断完毕后,得到第二极大值点数组N2为正整数,表示数组X2中元素个数;步骤203、筛选掉数组X2中小于差值平均值并且在相邻的前后各点中不是值最大的点,将剩下的点组成第三极大值点数组X3;步骤a、对数组tc中离散点分组,获取各组中心点ct与同组最小值差值的平均值mean_vs;步骤b、将数组X2中各极大值点与平均值mean_vs比较,依次标记数组X2中各极大值点的第一属性fm;将数组X2中极大值xm在数组tc中对应的离散点用表示,如果标记点xm的第一属性fm为0,否则,标记第一属性fm为1;步骤c、将点与其在数组tc中相邻前后各点比较,依次标记数组X2中极大值点第二属性gm;判断是否为数组tc中相邻前后各k个点中的最大值,如果是,标记点xm的第二属性gm为1,否则标记点xm的第二属性为gm为0;其中,k为正整数;步骤d、依次筛选数组X2中极大值点xm的属性,当第一属性fm=0且第二属性gm=0时,则将点xm从数组X2中移除;数组X2经过移除操作后形成第三极大值点数组N3为正整数,表示数组X3中元素个数;步骤204、删除数组X3中差距较小的相邻极大值点,组成波峰点数组X4;对于数组X3中的各极大值进行如下处理:设数组X3中极大值点xj在数组tc中对应的点为将与数组tc中相邻的前后各k个点中的最小值作差,设得到差值tsi,i=1,2,...N3;所有差值组成数组TS,将TS中点降序排列后形成数组针对每一个ntsi,依次判断ntsi在数组tc中对应的极大值点之后的相邻极大值点是否都存在于数组X3中,并且相邻极大值点对应的微博发布量是否小于对应的微博发布量,如果是,依次将相邻极大值点筛掉,否则保留剩下的极大值点组成最终的波峰点数组N4为正整数,表示数组X4中元素个数;步骤三、获取时间趋势图中的波谷点;步骤301、将时间趋势图中所有离散点组成数组tc,将数组tc中的所有极小值点升序排列,前M1个点构成第一极小值点数组Y1;M1为正整数,表示数组Y1中元素个数;步骤302、在极小值点数组Y1中,筛选连续的波谷点,得到第二极小值点数组Y2;对于数组Y1中相邻的两个元素yn与yn‑1,判断元素yn对应的微博发布量是否与yn‑1对应的微博发布量相同,如果相同,将yn从数组Y1中删除,否则,不进行删除操作;将数组Y1中所有元素判断完毕后,得到第二极小值点数组M2为正整数,表示数组Y2中元素个数;步骤303、筛选掉数组Y2中大于等于平均值且在相邻的前后各点中不为最小值的点,数组Y2中剩下的点组成第三极小值点数组Y3;步骤I、对数组tc中离散点分组,获取各组中心点ct与同组最大值差值的平均值mean_ws;步骤II、将数组Y2中各极小值点与平均值mean_ws比较,依次标记数组Y2中各极小值点的第一属性fm';将数组Y2中极小值ym在数组tc中对应的点用表示,当时,标记极小值点ym的第一属性fm'为1,否则,标记第一属性fm'为0;步骤III、将点与其在数组tc中相邻前后各点比较,依次标记数组Y2中极小值点第二属性gm';判断对应的微博发布量是否为数组tc中相邻前后各k个点对应的微博发布量最小值,如果是,标记点表示的极小值ym的第二属性gm'为1,否则标记点ym的第二属性gm'为0;步骤IV、依次筛选数组Y2中的极小值点ym的属性,当第一属性fm'=0且第二属性gm'=0时,则将点ym从数组Y2中移除;数组Y2经过移除操作后形成第三极小值点数组M3为正整数,表示数组Y3中元素个数;步骤304、删除数组Y3中差距较小的相邻极小值点,组成波谷点数组Y4;对于数组Y3中的各极小值进行如下处理:设数组Y3中极小值点yj在数组tc中对应的点为将点与数组tc中相邻的前后各k个点中的最大值作差,得到差值i=1,2,...M3;所有差值组成数组KS,将KS中点升序排列后形成数组针对每一个nksi,依次判断nksi在数组tc中对应的极小值点之后的相邻极小值点是否都存在于数组Y3中,并且相邻极小值点对应的微博发布量是否大于极小值点对应的微博发布量,如果是,依次将相邻极小值点筛掉,否则保留剩下的极小值点组成最终的波谷点数组M4为正整数,表示数组Y4中元素个数;步骤四、根据波峰点数组X4和波谷点数组Y4,选用第一个波谷点到第一个波峰点之间作为趋势的时间范围;步骤五、在波峰点与波谷点确定的趋势时间范围内,进行微博关键词的提取;微博关键词的提取是指对高频词进行提取;步骤六、根据关键词,对微博内容相关度排序,提取趋势制造者;以单条微博关键词对整体关键词的覆盖程度作为内容相关度,降序排序后取排名在前的微博发布用户为趋势制造者;步骤七、根据波峰点与波谷点确定的时间范围获取增速最快的时间段;将时间趋势图中波谷点与波峰点之间的时间段内,以小时为时间粒度构造数量变化图,所有小时组成时间趋势变化序列t={t1,t2,...tN},从该序列选取m组,计算每组的平均值组成数组,然后依次计算数组中两点间的斜率,获取斜率最大的两点作为增速最快的时间段;步骤八、对增速最快的时间范围内微博进行转发量排序,提取趋势推动者。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510255994.6/,转载请声明来源钻瓜专利网。