[发明专利]面向话题的多微博时序文摘方法有效
申请号: | 201610075130.0 | 申请日: | 2016-02-03 |
公开(公告)号: | CN105740448B | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 贺瑞芳;于广川;党建武;胡清华 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/14 | 分类号: | G06F16/14;G06F16/30 |
代理公司: | 天津才智专利商标代理有限公司 12108 | 代理人: | 刘美甜 |
地址: | 300072 天津市南*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 话题 多微博 时序 文摘 方法 | ||
本发明公开一种面向话题的多微博时序文摘方法,包括如下步骤:1)以时间点为横轴、相应时间点对应的微博更新速度为纵轴,进行面向话题的微博文本流热度信号建模;2)采用小波降噪对步骤1)的初始信号降噪,按一定时间粒度,选取其中的信号极大值点,依据对应更新速度进行排序,以检测重要时间点;3)融合微博流热度信号瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;4)采用最大边缘相关技术选择摘要句,建立MMR微博摘要句选择模型。该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点,并在此基础上,利用一类改进的基于图的随机游走算法对多微博进行摘要,输出结果准确度高。
技术领域
本发明涉及网络微博中的数据挖掘技术领域,特别是涉及一种面向话题的多微博时序文摘方法。
背景技术
随着互联网技术的飞速发展,特别是微博的出现,人们获取信息的方式发生了一定的改变。然而,由于微博庞大的用户量和开放的信息发布方式,其上的信息存在着大量的冗余,为了帮助用户精准快速的从微博上获取自己所需的信息,对微博摘要算法的研究设计具有重要的现实意义。
摘要是简明确切地记述文献重要内容的短文,其长度一般在原始文献长度的15%以下,通过这种方式来获取信息,可以在不曲解原始文献含义的前提下大大缩短获取信息所需要的时间和精力。面对互联网上海量的信息,人工完成摘要显然是不可能的,而自动摘要就显得格外重要。
然而,互联网应用方式的变化对自动摘要的方法提出了新的要求,微博网站,如Twitter的出现使得互联网上内容的形式大大改变。微博是近年出现的一种互联网平台,它允许用户在其上发布和浏览信息,并具有一些很强的社交属性功能,如转发和回复功能。
由于微博内容的简短性、高实时性、高社交性的特点,使得面向微博的自动摘要技术需要采用与传统自动摘要所不同的方法。
发明内容
为了解决上述技术问题,本发明提供一种面向话题的多微博时序文摘方法,该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点,并在此基础上,利用一类改进的基于图的随机游走算法对多微博进行摘要,输出结果准确度高。
为此,本发明的技术方案如下:
一种面向话题的多微博时序文摘方法,包括如下步骤:
1)面向话题的微博文本流热度信号建模
记某一时间点为ti,在ti时间点包含关键词K的微博的更新速度为
其中,表示时间段[ti,ti+Δt]中发布的包含关键词K的微博条数,表示[ti,ti+Δt]中发布的所有微博条数;
给定关键词K和时间段[tstart,tend],以此为基础抽取出此时间段内包含K的微博实验数据集,选定单位时长Δt,沿时间轴计算各点的微博更新速度得到一个一维向量作为初始热度信号;
2)重要时间点检测建模
采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪;按一定的时间粒度选取其中的信号极大值点,优选此处观察粒度以天为单位,依据对应更新速度的大小进行排序,并依次以其对应的时间点为重要时间点,记为imp={imp1,imp2,…,impl};
3)融合微博流瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610075130.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种硫磺泵轴调整装置
- 下一篇:一种螺丝