[发明专利]基于用户发帖行为模式的多线索社会事件总结方法有效
申请号: | 201610569558.0 | 申请日: | 2016-07-19 |
公开(公告)号: | CN106202487B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 郭斌;张佳凡;於志文;欧阳逸;周兴社 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于用户发帖行为模式的多线索社会事件总结方法,用于解决现有多线索社会事件总结方法实用性差的技术问题。技术方案是根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。 | ||
搜索关键词: | 基于 用户 发帖 行为 模式 线索 社会 事件 总结 方法 | ||
【主权项】:
1.一种基于用户发帖行为模式的多线索社会事件总结方法,其特征在于包括以下步骤:步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词;步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此微博作为节点,构建表示用户发帖行为模式的图模型T;步骤三、利用TF‑IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此微博作为节点,构建表示微博内容相似性的图模型A;步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段;步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索;步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结;步骤七、利用贪心算法使子模性函数最大化以剔除线索中的冗余信息,得到有发展脉络的多线索社会事件总结;其中,子模性函数为,
其中,V代表线索,S代表最后选中的微博,i,j代表微博,这个函数的意义就是使S中的微博信息覆盖率最大,冗余率最小;利用贪心算法得到使该子模性函数最大化的微博集合S,即剔除了冗余信息后的线索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610569558.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种图像数据库的管理方法
- 下一篇:一种基于大数据的品牌分析方法及系统