[发明专利]一种面向短文本的突发事件发展过程表示方法在审
申请号: | 201510662049.8 | 申请日: | 2015-10-14 |
公开(公告)号: | CN105260358A | 公开(公告)日: | 2016-01-20 |
发明(设计)人: | 陈雪;胡晓峰;徐浩 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 文本 突发事件 发展过程 表示 方法 | ||
1.一种面向短文本的突发事件发展过程表示方法,其特征在于,首先设定时间窗口,将短文本集划分成时间连续的多个子集,然后根据每个子集计算事件在对应时间窗口的状态值,最终获得一系列的时序状态值作为该事件的发展过程表示,其步骤如下:
1)获取事件相关的短文本集A,设定时间窗口T,将短文本集A划分为多个子集A1,A2,…,An,子集之间是时间连续且两两不相交的;
2)利用文本结构化信息,构造三个因素:评论率、转发率、支持率,获取文本信息权重;
3)利用作者结构化信息,构造三个因素:社会关注度、社会紧密度、社会活跃度,同时考虑作者的社会关系及社会影响,分别采用改造的PageRank和动态分层法处理,获取作者信息权重;
4)根据文档的文本信息权重和作者信息权重,获得单篇文本对事件的贡献值;
5)将对应时间窗口内短文本的贡献值求和,获得各时间窗口下该事件的状态值,并绘制事件发展过程曲线图。
2.根据权利要求1所述的面向短文本的突发事件发展过程表示方法,其特征在于,所述步骤1)中的时间窗口指一段连续的时间,时间窗口之间是连续且不相交的;对于事件相关短文本集A在各时间窗口下的短文本子集分别为:A1,A2,…,An,那么该事件在发展过程的状态值则由该连续的时间窗口下相应的短文本子集计算获得并表示。
3.根据权利要求1所述的面向短文本的突发事件发展过程表示方法,其特征在于,所述步骤2)中的文本信息权重获取方法为:利用文本的转发数、评论数、支持数以及对应作者的粉丝数,计算该文本的转发率、评论率和支持率,获取该文本除去作者个人影响所获得的关注程度,即文本信息权重;其中:
评论率(fv)指文本获得的评论数量与文本用户的粉丝数比值;转发率(fr)指文本获得的转发次数与文本用户的粉丝数比值;支持率(fz)指文本获得的“赞”次数与文本用户粉丝数的比值;文本信息权重指文本内容对事件产生的影响力或吸引关注者的能力;它们的计算公式如下:
Weighttext,j=fvj+frj+fzj(II)
上述,式(I)中分别为利用文本结构化信息构造的三个因子:文本评论率(fv)、文本转发率(fr)、文本支持率(fz),其中,Nview表示对应文档得到的评论次数;Nretwt表示对应文档得到的转发次数;Nzan表示对应文档获得的赞次数;Nfol表示对应文档用户的粉丝数;1为平滑因子;式(II)表示将这三个因子累和获得该文档j的文本信息对事件的权重值Weighttext,j。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510662049.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助阅读的方法和电子设备
- 下一篇:基于哈希有向图的敏感词检查方法和设备