[发明专利]一种基于混合打分模型的推文事件摘要生成方法在审
申请号: | 201810919909.5 | 申请日: | 2018-08-14 |
公开(公告)号: | CN109255123A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 于富财;蒋珊;汪辉;胡光岷;费高雷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q50/00 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要生成 用户影响力 逻辑回归 文本特征 分类器 加权和 社交圈 无向图 抽取 衡量 | ||
1.一种基于混合打分模型的推文事件摘要生成方法,其特征在于,包括以下步骤:
步骤1,获取推文;
步骤2,基于混合打分模型对推文进行打分,其中,所述打分模型包括基于逻辑回归分类器的推文文本质量评分模型、基于无向图模型的推文文本概括度评分模型及基于社交圈的用户影响力评分模型;
步骤3,根据所述打分模型的评分结果,得到事件的摘要。
2.如权利要求1所述的基于混合打分模型的推文事件摘要生成方法,其特征在于,所述步骤2包括以下流程:
步骤21,基于逻辑回归分类器的对推文文本质量进行评分;
步骤22,基于无向图模型对推文文本概括度进行评分;
步骤23,基于社交圈对用户影响力进行评分。
3.如权利要求2所述的基于混合打分模型的推文事件摘要生成方法,其特征在于,所述步骤21包括以下流程:
提取推文特征,得到推文特征集,其中,推文特征包括推文长度、推文省略号数量、推文“#”号数量、推文“@”号数量、推文停用词占用比例、推文url的Alexa排名、推文大写字母占用比例、推文特殊符号占用比例,根据推文特征对推文进行质量评分。
4.如权利要求2所述的基于混合打分模型的推文事件摘要生成方法,其特征在于,所述步骤22包括以下流程:
将推文事件的推文si={tweet1,tweet2,...,tweetm}转换并构建成一个推文的无向图,推文tweeti和tweetj的文本相似度text_sim(tweeti,tweetj)为
其中,Vi和Vj分别为推文tweeti和tweetj的推文词向量。
5.如权利要求4所述的基于混合打分模型的推文事件摘要生成方法,其特征在于,Vi和Vj分别为推文tweeti和tweetj通过NLTK工具进行分词、去除停用词和标点符号、词干化后得到的推文词向量。
6.如权利要求2所述的基于混合打分模型的推文事件摘要生成方法,其特征在于,所述步骤23包括以下流程:
用户社交圈内其他用户的粉丝数量和sum_follow_num为
其中,k为用户的社交圈的总人数,对N篇推文进行用户影响力评分,第i个用户的社交圈粉丝数和为sum_follow_numi,这N个用户对应的社交圈粉丝数和的列表为
sum_follow_num_list=
{sum_follow_num1,sum_follow_num2,...,sum_follow_numN}
对sum_follow_num_list中的数进行升序排序,推文tweetj的用户的sum_follow_num在其中的排名为ranksum_follow_num,推文tweetj对应的用户的社交圈的评分为
用户的粉丝数为follow_num,其社交圈内的其他用户friend_list={user1,user2,...,userk}对应的粉丝数为
其中,rankfollow_num为用户的粉丝数排名,对用户和friend_list均采集M篇历史推文,得到用户的总点赞数和总转推次数在其社交圈内的其他用户的总点赞数和总转推次数的升序排名ranksum_like_num和ranksum_retweet_num,用户的历史推文的点赞数和转推数的总评分为
其中,α为归一化的调和系数,用户在社交圈内的评分为
基于社交圈的用户影响力评分为
将归一化后的评分作为基于社交圈的用户影响力评分
其中,Max_importance_score为事件发展阶段中的所有推文用户中的最大影响力评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810919909.5/1.html,转载请声明来源钻瓜专利网。