[发明专利]一种面向短文本的突发事件发展过程表示方法在审
申请号: | 201510662049.8 | 申请日: | 2015-10-14 |
公开(公告)号: | CN105260358A | 公开(公告)日: | 2016-01-20 |
发明(设计)人: | 陈雪;胡晓峰;徐浩 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 文本 突发事件 发展过程 表示 方法 | ||
技术领域
本发明涉及一种事件的表示方法,特别涉及一种面向短文本的突发事件发展过程表示方法。
背景技术
在文本处理领域,文本的重要性或贡献值通常是采用语义的方法来获取,首先计算文本之间的语义相关性,然后根据文本之间的相似度提取那些相似度越大、出现越多的文本则被认为更重要,贡献越大;同时也有人利用文本的结构化信息(如,文本浏览量、支持量等)来计算文本的重要性或贡献度。
PageRank算法初始用于处理网页节点之间的关系(入链、出链),迭代挖掘各个节点的重要性,某节点的入链表示该节点受到其他节点的关注或重视,某节点的出链则表示该节点认为另外某些节点也是重要的,节点入链越多且入链所牵连节点的权值越高,则该节点权值越高。与本文相似的研究,李洪利,王箭等通过基于PageRank的微博用户权威度评价模型来计算,将用户权威度数据与微博评论数、转发数结合,得到话题的热度值。
分层算法是根据数据的某些相似的属性或者在相近值域范围内的这些数据划分到相同的层中,然后将同一层中的数据做相同的处理,而不同层的数据则处理不一样。近年,赵龙文、公荣涛等人提出基于意见领袖参与行为的微博话题热度预测模型,以意见领袖的影响力及其参与行为等指标,研究微博热点话题的发展趋势和特征。
现有相关技术多采用文本处理的方案,通过挖掘文本内容,再提取文本语义;由于文本语义很多情况下是具有歧义的,通过机器来识别文本语义非常困难、复杂而且精确度不高,需要借助大量的工具(如,词典、语义消歧等)。
发明内容
针对现有技术存在的缺陷,本发明的目的是提供一种面向短文本的突发事件发展过程表示方法,将事件所引发的社会关注度、传播范围等以一个状态值呈现,某时刻事件的状态值越高则表明它在该时刻受到了社会的越大关注与讨论等。
为达到上述目的,本发明采用如下技术方案:
一种面向短文本的突发事件发展过程表示方法,首先设定时间窗口,将短文本集划分成时间连续的多个子集,然后根据每个子集计算事件在对应时间窗口的状态值,最终获得一系列的时序状态值作为该事件的发展过程表示,其步骤如下:
1)获取事件相关的短文本集A,设定时间窗口T,将短文本集A划分为多个子集A1,A2,…,An,子集之间是时间连续且两两不相交的;
2)利用文本结构化信息,构造三个因素:评论率、转发率、支持率,获取文本信息权重;
3)利用作者结构化信息,构造三个因素:社会关注度、社会紧密度、社会活跃度,同时考虑作者的社会关系及社会影响,分别采用改造的PageRank和动态分层法处理,获取作者信息权重;
4)根据文档的文本信息权重和作者信息权重,获得单篇文本对事件的贡献值;
5)将对应时间窗口内短文本的贡献值求和,获得各时间窗口下该事件的状态值,并绘制事件发展过程曲线图。
所述步骤1)中的时间窗口指一段连续的时间,时间窗口之间是连续且不相交的;对于事件相关短文本集A在各时间窗口下的短文本子集分别为:A1,A2,…,An,那么该事件在发展过程的状态值则由该连续的时间窗口下相应的短文本子集计算获得并表示。
所述步骤2)中的文本信息权重获取方法为:利用文本的转发数、评论数、支持数以及对应作者的粉丝数,计算该文本的转发率、评论率和支持率,获取该文本除去作者个人影响所获得的关注程度,即文本信息权重;其中:
评论率(fv)指文本获得的评论数量与文本用户的粉丝数比值;转发率(fr)指文本获得的转发次数与文本用户的粉丝数比值;支持率(fz)指文本获得的“赞”次数与文本用户粉丝数的比值;文本信息权重指文本内容对事件产生的影响力或吸引关注者的能力;它们的计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510662049.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助阅读的方法和电子设备
- 下一篇:基于哈希有向图的敏感词检查方法和设备