[发明专利]一种基于混合打分模型的推文事件摘要生成方法在审
申请号: | 201810919909.5 | 申请日: | 2018-08-14 |
公开(公告)号: | CN109255123A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 于富财;蒋珊;汪辉;胡光岷;费高雷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q50/00 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要生成 用户影响力 逻辑回归 文本特征 分类器 加权和 社交圈 无向图 抽取 衡量 | ||
本发明提供了一种基于混合打分模型的推文事件摘要生成方法,属于摘要生成领域。本发明从多篇推文中抽取评分最高的推文作为摘要,其评分的方式是使用混合的打分模型对每一篇推文进行打分:基于逻辑回归分类器对推文文本特征评分、基于社交圈的用户影响力的评分和基于无向图模型的推文概括度评分。将3个部分的评分的加权和作为推文的最终评分,衡量推文的重要性,选取重要性最高的推文作为多篇推文的摘要。
技术领域
本发明属于摘要生成领域,特别涉及一种基于混合打分模型的推文事件摘要生成方法。
背景技术
近年来,社交网络和移动互联网技术的飞速发展极大的缩进了用户之间的距离,使得用户可以越发紧密的联系到一起,用户不但可以轻易的获取网络时代的各种信息,而且也可以参与到信息的制造过程中,成为信息的制造者,这使得传统的信息产生与交流受到了难以想象的冲击。随着网络用户规模的急剧上涨,更加导致了目前的信息具有容量大,类型多,速度快,潜在价值高等特点,而且信息爆炸式增长的趋势越来越明显。近年来,美国的社交网络及微博应用网站Twitter已经变成了全球最受欢迎的社交平台之一。它使得人们可以使用不超过140字的被称为“推文”的消息进行信息的实时分享。到2012年为止,Twitter 的活跃用户已经到达了1.4亿,甚至被广泛称作“互联网的短信服务”,并且每天的“推文”发布数目到达了3.3亿。Twitter上实时分享的消息的数目的飞速增长加剧了用户获取信息的难度,虽然Twitter为了使用户更加方便的获取信息,提供了关键字搜索的功能,用户可以通过关键字搜索相关的“推文”。但是对于一个热点事件而言,用户发布的“推文”数目通常有成千上万条,用户想要通过阅读这些数目庞大的“推文”来获取一个热点事件的发展概要几乎是不可能的。
为了能使用户可以清晰地、快速的了解整个推文事件的发展脉络,需要挖掘事件发展的各个阶段,并为每个重大的阶段生成相关摘要,最后将这些摘要按照时间先后顺序组织成事件的发展脉络;因此基于推文事件的摘要生成和演化分析就变成了一个十分重要的研究热点。
发明内容
为了解决现有技术中的问题,本发明提出了一种基于混合打分模型的推文事件摘要生成方法,基于混合打分模型的推文事件摘要生成算法,为推文事件的每一个重大发展阶段都会生成一个摘要,按照这些发展阶段的时间先后顺序在时间轴上展示事件的不同发展阶段的摘要,即事件的发展脉络,有助于用户了解整个事件的发展脉络。
一种基于混合打分模型的推文事件摘要生成方法,包括以下步骤:
步骤1,获取推文;
步骤2,基于混合打分模型对推文进行打分,其中,所述打分模型包括基于逻辑回归分类器的推文文本质量评分模型、基于无向图模型的推文文本概括度评分模型及基于社交圈的用户影响力评分模型;
步骤3,根据所述打分模型的评分结果,得到事件的摘要。
进一步地,所述步骤2包括以下流程:
步骤21,基于逻辑回归分类器的对推文文本质量进行评分;
步骤22,基于无向图模型对推文文本概括度进行评分;
步骤23,基于社交圈对用户影响力进行评分。
进一步地,所述步骤21包括以下流程:
提取推文特征,得到推文特征集,其中,推文特征包括推文长度、推文省略号数量、推文“#”号数量、推文“@”号数量、推文停用词占用比例、推文url的Alexa排名、推文大写字母占用比例、推文特殊符号占用比例,根据推文特征对推文进行质量评分。
进一步地,所述步骤22包括以下流程:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810919909.5/2.html,转载请声明来源钻瓜专利网。