[发明专利]基于地域相关因子与稀疏表示的微博转发行为预测方法有效
申请号: | 201810231543.2 | 申请日: | 2018-03-20 |
公开(公告)号: | CN108596205B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 吴渝;张宏斌;李红波;储伟;林江鹏;艾伟东 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06Q50/00 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 地域 相关 因子 稀疏 表示 转发 行为 预测 方法 | ||
本发明请求保护一种基于主题地域相关因子与稀疏表示的微博转发行为预测方法,主要涉及机器学习及社交网络信息分析领域。首先,基于社交网络中用户关系以及用户行为数据,提取用户基本特征、微博基本特征、用户活跃度、用户的亲密程度、融入主题地域相关因子的用户兴趣度特征。其次,通过稀疏表示分类算法对特征组进行微博转发行为预测。本发明有效解决了目前微博转发行为预测计算时间长,准确率不高的问题。
技术领域
本发明属于社交网络信息分析领域以及机器学习领域,主要涉及一种社交网络转发预测方式。
背景技术
微博,即微型博客的简称,是一种通过关注机制分享实时信息的广播式的社交网络平台。其具有便捷性、背对脸、原创性、草根性的特点,同时具有反腐、打拐、营销、自媒体等效应。
转发是微博的一个重要机制。微博网络中,信息的传播主要是通过微博的转发实现的。当微博上某用户发布一条博文,该博文会被推送给该用户的全部粉丝,而当其粉丝看到这条博文后,可以选择转发这条博文,系统会将此博文再推送给这个粉丝用户的全部粉丝。微博信息通过用户的转发行为在微博平台上实现了持续的传播。因此,研究微博的转发行为对研究信息在微博中传播,比如微博用户行为和兴趣、突发事件预测、控制敏感信息、网络舆情监控、产品营销、以及用户推荐等方面具有重要意义。
在微博转发行为预测中,能采集到的特征众多,而数据集中存在本身与预测无关的特征以及冗余特征,如果选择了几乎不具辨别能力的特征,将导致设计的预测模型性能低下,但若是选择的特征具有充分辨别能力,则会极大提高预测模型的预测精度。
近年来,针对微博转发行为预测准确率不高,特征选择任意性的问题,国内外学者展开了广泛和深入的研究。Petrovic等人通过人工实验证明了微博转发预测的可行性,然后利用改进的passive-aggressive算法预测转发,但正确率仅为46.6%。Morchid等人的研究表明选取的特征如果有较高的辨别能力,预测算法的性能会得到有效的提高。张旸等人提出了一种微博转发行为预测的方法。首先将微博转发转换为二元分类问题,然后使用支持向量机(Support Vector Machine,SVM)算法对加权后的各特征进行训练,但该模型未考虑个性化的用户兴趣特征,且预测命中率仅有85.9%,以及算法执行时间长。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高预测准确率、减少预测执行时间的基于地域相关因子与稀疏表示的微博转发行为预测方法。本发明的技术方案如下:
一种基于地域相关因子与稀疏表示的微博转发行为预测方法,其包括以下步骤:
步骤1:从数据中提取用户基本特征、微博基本特征;
步骤2:通过已提取的用户及微博基本特征计算用户活跃度、用户的亲密程度、基于主题地域相关因子的用户兴趣度;
步骤3:对步骤2的包括用户活跃度、用户的亲密程度、基于主题地域相关因子的用户兴趣度在内的多维数据特征进行特征筛选;
步骤4:筛选后的特征组通过稀疏表示分类算法进行转发预测,得到最终预测结果。
进一步的,所述步骤1从数据中提取用户基本特征、微博基本特征具体包括:
步骤1.1:提取用户基本特征:用户昵称、用户所在地、用户姓名、用户粉丝数、用户关注数、用户微博数、用户创建时间;
步骤1.2:提取微博发布时间、微博具体内容、微博是否为转发、是否分享图片、是否含有链接、微博来源、微博转发数、微博评论数以及微博被赞数。
进一步的,所述步骤2用户的亲密程度为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810231543.2/2.html,转载请声明来源钻瓜专利网。