[发明专利]一种热门话题活跃用户定位方法在审
申请号: | 201811650294.7 | 申请日: | 2018-12-31 |
公开(公告)号: | CN109766426A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 徐承迪 | 申请(专利权)人: | 杭州翼兔网络科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热门话题 活跃用户 热点数据 网络集合 有向图 权重 分组数据 数据处理步骤 合理数据 获取数据 目标用户 数据分组 数据集合 问卷调查 应用空间 集合 场景 投放 发放 广告 发布 分析 研究 | ||
本发明提供了一种热门话题活跃用户定位方法,包括获取数据集合,所述数据集合包括一类数据和二类数据;按照一类数据的发布时间进行数据分组,得到分组数据集;对于每个分组数据集,计算热点数据网络集合;获取各个所述热点数据网络集合中对应的权重有向图;对所述权重有向图进行分析,选取对应所述权重有向图的热门话题活跃用户。本发明通过合理的数据处理步骤得到了热点数据网络集合,而热点数据网络集合的获取是研究热门话题的合理数据源,其具备广阔的应用空间。进一步地,本发明还从热点数据网络集合中得到了热门话题活跃用户,所述热门话题活跃用户可以作为很多场景的目标用户,比如发放调研报告,问卷调查,广告定向投放等等。
技术领域
本发明涉及计算机领域,尤其涉及一种热门话题活跃用户定位方法。
背景技术
在数据分析领域,经常需要对数据进行分析。在常见互动性网站中,比如知乎,百度贴吧存在大量的用户互评类数据,这类数据能够反应用户的个人偏好,也能够用于研究时事热点和社会现象,存在较多的社会信息,能够被广泛的应用于广告目标用户研究,热点问题研究,舆情监督等各个领域。但是现有技术中缺乏对于这类数据的数据处理方法,也难以从这类数据中提取出有效的数据源和活跃用户以用作后续的数据分析之用。
发明内容
为了解决上述技术问题,本发明提出了一种热门话题活跃用户定位方法。本发明具体是以如下技术方案实现的:
一种热门话题活跃用户定位方法,包括:
获取数据集合,所述数据集合包括一类数据和二类数据;所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据;
按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据;
对每个分组数据集进行预处理,得到所述分组数据集对应的数据网络集合;
对于每个分组数据集,计算其对应的话题向量集;
基于所述话题向量集得到所述分组数据集中的热点数据网络集合;
获取各个所述热点数据网络中对应的权重有向图;
对所述权重有向图进行分析,选取对应所述权重有向图的热门话题活跃用户。
进一步地,所述基于所述话题向量集得到所述分组数据集中的热点数据网络集合包括:
获取每个数据网络的热度属性;
根据所述热度属性提取疑似热点数据网络;
获取疑似热点数据网络的相关度矩阵;
获取所述相关度矩阵中数值大于预设相关度阈值的元素;
若所述元素总数大于预设的热度阈值,则所述疑似热点数据网络被判定为热点数据网络,从而得到热点数据网络集合。
进一步地,权重有向图的构建方法包括:
获取热点数据网络每条边的诚恳度权重和支持度权重;
根据所述诚恳度权重和所述支持度权重计算所述边的综合权重。
进一步地,还包括量化诚恳度权重的方法:
构建诚恳度量化表,所述诚恳度量化表包括字数区间和所述字数区间对应的诚恳度权重;
得到每条边中起点用户对终点用户的回复的字数;
根据所述诚恳度量化表查询所述字数所在的字数区间,并得到其对应的诚恳度权重。
进一步地,还包括量化支持度权重的方法:
根据预设的感情词语表提取每条边中起点用户对终点用户的回复中的目标感情词语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州翼兔网络科技有限公司,未经杭州翼兔网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811650294.7/2.html,转载请声明来源钻瓜专利网。