[发明专利]面向话题的多微博时序文摘方法有效
申请号: | 201610075130.0 | 申请日: | 2016-02-03 |
公开(公告)号: | CN105740448B | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 贺瑞芳;于广川;党建武;胡清华 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/14 | 分类号: | G06F16/14;G06F16/30 |
代理公司: | 天津才智专利商标代理有限公司 12108 | 代理人: | 刘美甜 |
地址: | 300072 天津市南*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种面向话题的多微博时序文摘方法,包括如下步骤:1)以时间点为横轴、相应时间点对应的微博更新速度为纵轴,进行面向话题的微博文本流热度信号建模;2)采用小波降噪对步骤1)的初始信号降噪,按一定时间粒度,选取其中的信号极大值点,依据对应更新速度进行排序,以检测重要时间点;3)融合微博流热度信号瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;4)采用最大边缘相关技术选择摘要句,建立MMR微博摘要句选择模型。该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点,并在此基础上,利用一类改进的基于图的随机游走算法对多微博进行摘要,输出结果准确度高。 | ||
搜索关键词: | 面向 话题 多微博 时序 文摘 方法 | ||
【主权项】:
1.一种面向话题的多微博时序文摘方法,其特征在于包括如下步骤:1)面向话题的微博文本流热度信号建模记某一时间点为ti,在ti时间点包含关键词K的微博的更新速度为![]()
其中,
表示时间段[ti,ti+Δt]中发布的包含关键词K的微博条数,
表示[ti,ti+Δt]中发布的所有微博条数;给定关键词K和时间段[tstart,tend],以此为基础抽取出此时间段内包含K的微博实验数据集,选定单位时长Δt,沿时间轴计算各点的微博更新速度
得到一个一维向量
作为初始热度信号;2)重要时间点检测建模采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪;按一定的时间粒度选取其中的信号极大值点,依据对应更新速度
的大小进行排序,并依次以其对应的时间点为重要时间点,记为imp={imp1,imp2,…,impl};3)融合微博流瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;TS:采用传统随机游走图模型LexRank的微博文摘算法;TST:在TS基础上,融合微博流瞬时时序特性的微博文摘算法;TSS:在TS基础上,融合用户权威性信息的微博文摘算法;T2ST:在TS基础上,融合TST与TSS的微博文摘算法;T2ST模型将包含关键词K的每条微博作为图的节点,根据余弦相似度sim(di,dj)计算代表第i,j条微博的节点di和dj之间边的权值以及转移概率矩阵M,M中的每个元素mi,j表示为:
其中,
式中:j’表示所有和i邻接的节点;H(dj)为微博dj的热度,P(dj)为微博dj被发布的时间,p(dj)的时间粒度要小于步骤2)中的时间粒度;a(dj)为用户权威度;fol(dj)表示微博dj发布用户的粉丝数,fri(dj)表示微博dj发布用户的关注数;H(dj)和A(dj)应用Logistic函数分别将热度信号值和用户权威度分别映射到[0,1]区间内;接着,采用图模型的迭代方式进行求解,进而得出每条微博的重要性;4)MMR微博摘要句选择模型采用最大边缘相关技术选择摘要句,以D={d1,d2,…,dn}表示所有候选微博的集合,S={s1,s2,…,sn,,}表示最终得出微博摘要的集合;开始选择摘要句时S为空集,将步骤3)得到的重要性最高的微博dtop从D中选出,加入S,并从D中删除;然后重复从D中选出其中重要性最高的微博dtop,比对其与S中各微博的相似度,若都小于设定的阈值,则将dtop放入s中,否则从D中重新选择dtop,如此循环得到S。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610075130.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种硫磺泵轴调整装置
- 下一篇:一种螺丝