[发明专利]基于融合特征筛选与随机森林的微博转发行为预测方法有效
申请号: | 201611260965.X | 申请日: | 2016-12-30 |
公开(公告)号: | CN106682208B | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 黄文明;周先亭;孙晓洁;邓珍荣 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于融合特征筛选与随机森林的微博转发行为预测方法,首先,从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征,并基于相对熵计算用户活跃度、博文影响力;其次,通过Filter特征选择法与Wrapper特征选择法筛选出关键特征组;最后,融合异常检测与随机森林算法,依据筛选后的关键特征组进行微博转发行为预测,并利袋外数据误差估计设置随机森林中决策树和特征数。本发明有效解决了目前微博转发行为预测特征选择任意性,准确率不高的问题。 | ||
搜索关键词: | 基于 融合 特征 筛选 随机 森林 转发 行为 预测 方法 | ||
【主权项】:
一种基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:包括以下步骤:步骤1:从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库;步骤2:特征提取,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征;步骤3:特征合成,基于提取的用户特征计算用户活跃度、博文影响力进行特征合成;步骤4:特征筛选:首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优化选取;步骤5:对筛选后的特征进行参数调整和模型优化,利用袋外数据误差估计设置随机森林中决策树和特征数,通过实验设置异常检测的阈值;步骤6:依据优化后的特征组通过随机森林算法进行转发与否预测,再通过异常检测算法对预测结果进行修正,得到最终预测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611260965.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种同时具有粉碎和混合功能的装置
- 下一篇:一种温控增压喷射搅拌流水生产线