[发明专利]基于远程对话的用户特征挖掘方法有效
申请号: | 201510982477.9 | 申请日: | 2015-12-24 |
公开(公告)号: | CN105354343B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 董政;吴文杰;陈露;李学生 | 申请(专利权)人: | 成都陌云科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于远程对话的用户特征挖掘方法,该方法包括:构建分布式主题挖掘体系结构,利用社交网络数据进行主题监测模型训练,获取不同领域社区中的用户主题分布。本发明提出了一种基于远程对话的用户特征挖掘方法,通过分析特定领域下用户主题的特征,帮助用户从海量数据中高效获取信息。 | ||
搜索关键词: | 基于 远程 对话 用户 特征 挖掘 方法 | ||
【主权项】:
1.一种基于远程对话的用户特征挖掘方法,其特征在于,包括:构建分布式主题挖掘体系结构,利用社交网络数据进行主题监测模型训练,获取不同领域社区中的用户主题分布;所述分布式主题挖掘体系结构包括数据采集模块、数据运算存储模块、算法分析模块、任务管理模块、前端显示模块,数据采集模块通过调用开放平台API和抓取网站网页两种方式,采集系统需要的用户相关数据,并对数据进行解析、处理,最终将数据导入到数据存储模块;数据运算存储模块为下层的数据采集模块提供原始数据存储服务,为上层的算法分析模块提供算法计算结果数据存储服务,同时为前端显示模块提供显示数据存储服务,其中分布式文件系统部分负责用户相关原始数据及算法中间结果的存储,MapReduce部分负责数据的处理及算法运算,数据库用于存储算法的计算结果及前端显示模块所需数据;算法分析模块实现并运行社交网络各领域社区发现和用户社区主题挖掘方法,计算用户相关数据,得到数据挖掘结果;任务管理模块负责其他各模块任务的分发和调度,前端显示模块显示算法的计算结果,将特定领域用户的社区划分结果以及对各个社区主题挖掘的结果进行显示;所述分布式文件系统,还用于存储在社交内容采集的用户原始数据、模型训练的中间数据以及部分算法的结果数据;存储用户信息及算法的计算结果,为前端显示模块提供数据库功能支撑,该分布式文件系统是在Linux文件系统基础上实现的,存储其中的数据都是以纯文本形式存储;使用tab键作为各个字段的分割符,对于模型训练的结果在分布式文件系统中也是以文本文件方式存储,数据库中存储用户信息、用户连接关系、社交网络各领域社区发现模型对影响力用户的社区划分结果及特定领域用户社区主题挖掘方法对影响力用户群主题挖掘的结果,为前端显示模块提供数据库功能支撑;在模型训练过程中,记录模型主题分布的状态以及主题下关键词的分布状态,使用两个矩阵来完成中间状态的记录:nw矩阵,记录每个词语在各个主题上的分布情况;nd矩阵,记录每个文档在各个主题上的分布情况,通过不断更新上述两个矩阵的状态信息,最终使模型达到收敛,模型训练的过程为:1)将主题个数记为T,则初始化阶段对原始数据中的所有词语随机分配一个主题t,其中t∈{0…T‑1},得到模型训练的原始数据;2)按照数据分片的大小将原始数据切分成N等份,并将数据分片分发到集群中不同的节点上;3)针对每一个数据分片,在相应的节点上启动一个映射器任务;该映射器任务首先本地加载一份全局的nw\nd矩阵,得到前一次迭代完成后模型的状态信息;4)在本地nw\nd状态矩阵的基础上计算本映射器任务数据块中所有词语新的主题分布,并将对全局nw\nd矩阵的更新迁移到一个固定的规约任务中,然后词语及其更新的主题分布迁移到另外的一个或多个规约任务中;5)启动一个专门用于接收nw\nd矩阵更新信息的规约任务,用来集中处理来自各个映射器任务的状态更新信息,然后对全局的nw\nd进行更新;另外的规约任务则将词语及其更新的主题分布数据写入分布式文件系统中,为下一次迭代做好准备;6)重复上述2‑5的过程,直到收敛。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都陌云科技有限公司,未经成都陌云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510982477.9/,转载请声明来源钻瓜专利网。
- 上一篇:丙烯回收塔进料装置
- 下一篇:一种网络爬虫实现方法和网络爬虫系统