[发明专利]基于远程对话的用户特征挖掘方法有效
申请号: | 201510982477.9 | 申请日: | 2015-12-24 |
公开(公告)号: | CN105354343B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 董政;吴文杰;陈露;李学生 | 申请(专利权)人: | 成都陌云科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 远程 对话 用户 特征 挖掘 方法 | ||
本发明提供了一种基于远程对话的用户特征挖掘方法,该方法包括:构建分布式主题挖掘体系结构,利用社交网络数据进行主题监测模型训练,获取不同领域社区中的用户主题分布。本发明提出了一种基于远程对话的用户特征挖掘方法,通过分析特定领域下用户主题的特征,帮助用户从海量数据中高效获取信息。
技术领域
本发明涉及大数据,特别涉及一种基于远程对话的用户特征挖掘方法。
背景技术
近年来,社交网络迅速发展,用户人数呈爆炸式增长。通过社交网络服务,人们除了进行社交行为,则更多的是将社交网络当成公共的媒体平台,满足社交需求和特定兴趣获取需求。对于用户的专业信息及特定兴趣获取需求,而当前社交网络产品则不能很好的满足该需求,各类用户发表的信息混杂在一起,用户需要自己去甄别其中自己感兴趣的信息。如果对社交网络特定领域中信息走向及分布特点进行准确的研究,需要对其中的影响力用户进行深度的分析挖掘,而短文本无法蕴含丰富的语义特征,这就使得很多在处理文本有较好性能的算法直接用于社交网络数据的处理并不能得到很好的效果。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于远程对话的用户特征挖掘方法,包括:
构建分布式主题挖掘体系结构,利用社交网络数据进行主题监测模型训练,获取不同领域社区中的用户主题分布。
优选地,所述分布式主题挖掘体系结构包括数据采集模块、数据运算存储模块、算法分析模块、任务管理模块、前端显示模块,数据采集模块通过调用开放平台API和抓取网站网页两种方式,采集系统需要的用户相关数据,并对数据进行解析、处理,最终将数据导入到数据存储模块;数据运算存储模块为下层的数据采集模块提供原始数据存储服务,为上层的算法分析模块提供算法计算结果数据存储服务,同时为前端显示模块提供显示数据存储服务,其中分布式文件系统部分负责用户相关原始数据及算法中间结果的存储,MapReduce部分负责数据的处理及算法运算,数据库用于存储算法的计算结果及前端显示模块所需数据;算法分析模块实现并运行社交网络各领域社区发现和用户社区主题挖掘方法,计算用户相关数据,得到数据挖掘结果;任务管理模块负责其他各模块任务的分发和调度,前端显示模块显示算法的计算结果,将特定领域用户的社区划分结果以及对各个社区主题挖掘的结果进行显示;所述分布式文件系统,还用于存储在社交内容采集的用户原始数据、模型训练的中间数据以及部分算法的结果数据;存储用户信息及算法的计算结果,为前端显示模块提供数据库功能支撑,该分布式文件系统是在Linux文件系统基础上实现的,存储其中的数据都是以纯文本形式存储;使用tab键作为各个字段的分割符,对于模型训练的结果在分布式文件系统中也是以文本文件方式存储,数据库中存储用户信息、用户连接关系、社交网络各领域社区发现模型对影响力用户的社区划分结果及特定领域用户社区主题挖掘方法对影响力用户群主题挖掘的结果,为前端显示模块提供数据库功能支撑;
在模型训练过程中,记录模型主题分布的状态以及主题下关键词的分布状态,使用两个矩阵来完成中间状态的记录:nw矩阵,记录每个词语在各个主题上的分布情况;nd矩阵,记录每个文档在各个主题上的分布情况,通过不断更新上述两个矩阵的状态信息,最终使模型达到收敛,模型训练的过程为:
1)将主题个数记为T,则初始化阶段对原始数据中的所有词语随机分配一个主题t,其中t∈{0…T-1},得到模型训练的原始数据;
2)按照数据分片的大小将原始数据切分成N等份,并将数据分片分发到集群中不同的节点上;
3)针对每一个数据分片,在相应的节点上启动一个映射器任务;该映射器任务首先本地加载一份全局的nw\nd矩阵,得到前一次迭代完成后模型的状态信息;
4)在本地nw\nd状态矩阵的基础上计算本映射器任务数据块中所有词语新的主题分布,并将对全局nw\nd矩阵的更新迁移到一个固定的规约任务中,然后词语及其更新的主题分布迁移到另外的一个或多个规约任务中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都陌云科技有限公司,未经成都陌云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510982477.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:丙烯回收塔进料装置
- 下一篇:一种网络爬虫实现方法和网络爬虫系统