[发明专利]一种基于链接网络的用户领域识别方法及其装置有效
申请号: | 201310705515.7 | 申请日: | 2013-12-19 |
公开(公告)号: | CN103761246A | 公开(公告)日: | 2014-04-30 |
发明(设计)人: | 刘春阳;程工;张旭;庞琳;王卿;吴俊杰;王亚琼;李红;韩小汀 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 周长琪 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 链接 网络 用户 领域 识别 方法 及其 装置 | ||
技术领域
本发明属于数据发掘及复杂网络领域,具体来说,涉及基于链接网络的用户领域识别技术,具体是提出一种基于链接网络的用户领域识别方法及其装置,领域识别的结果可用于用户群体划分、网络营销等领域。
背景技术
随着社会媒体平台(如新浪微博)的蓬勃发展,越来越多的用户通过甚至渐渐习惯通过这样的平台宣传、分享、寻找信息及资源。这些用户来自科技、财经、体育、媒体等不同的领域,但很多用户往往更关注本领域的新闻和消息并且对属于本领域的问题或事件的传播更容易产生影响。因此预先识别用户关注的领域,为每一个用户分配一些领域标签,方便对网络用户进行分类管理和分析,具体来说对实现用户的精准信息推送,提高平台的用户体验或者识别各个领域的关键用户,提高相关单位对领域事件的感知速度发挥着非常重要的作用。传统的网络用户领域识别方法首先根据样本数据建立各个领域的特征词集合(领域词典),然后通过匹配用户自制的文本内容和领域词典对用户的兴趣领域进行分类。这种方法存在一些难以克服的问题:首先,中文分词的复杂性使得领域词典的权威性很难保证;其次随着瞬时社交网络的发展,语言使用趋向简约化和多样化,新词不断出现,如给力、果粉、神马,词典更新的难度增加;此外,在微博这样的短文本实时平台上,用户每时每刻都可以发布微博,内容涉及国家、社会、生活甚至家长里短的方方面面,所以仅从文本很难判定用户最关注的领域。上述原因导致基于内容的用户领域识别技术精度较低;而选择分类器基于某些属性进行分类的方法又面临如何选择属性和分类器的问题,而且现有的分类器往往在多类分类的问题上表现很差。
发明内容
现有技术对微博情境适应性较差,如基于文本的领域识别面临保证领域词典权威性及实时性的难题,而分类方法在像领域识别这样的多类分类问题上往往表现很差。针对这些问题本发明充分利用微博这类社交媒体的网络结构属性,采用基于链接网络的技术对海量用户进行领域识别,提出一种基于链接网络的用户领域识别方法及其装置。
本发明提供的一种基于链接网络的用户领域识别装置,包括三个模块:数据收集与预处理模块,领域原型用户集合构建模块和用户领域计算模块。
其中,数据收集与预处理模块的功能是采集初始种子用户,爬取初始种子用户的关注用户列表;领域原型用户集合构建模块利用各个领域初始种子用户的关注用户,为各领域构建原型用户;用户领域计算模块用来计算和排序选择待分类用户的各个领域隶属度。
数据收集与预处理模块包括手工采集样本模块以及运行爬虫/请求API(Application Programming Interface,应用程序编程接口)获取种子用户关注列表模块;手工采集样本模块用于获取和存储各个领域的初始种子用户id,运行爬虫/请求API获取种子用户关注列表模块用于获取各个初始种子用户的关注用户列表。
手工采集样本模块将获取的各个领域的初始种子用户id传输给运行爬虫/请求API获取种子用户关注列表模块,运行爬虫/请求API获取种子用户关注列表模块根据各个领域的初始种子用户id获取各个领域的初始种子用户的关注用户。
领域原型用户集合构建模块包括:计算种子用户关注者领域隶属度模块、在各个领域上按隶属度排序用户模块、获取扩展的领域原型用户集合模块;计算种子用户关注者领域隶属度模块用于存储和计算各个领域的初始种子用户的关注用户的领域隶属度,在各个领域上按隶属度排序用户模块对关注用户的领域隶属度进行排序,获取扩展的领域原型用户集合模块用于获取和存储扩展的领域原型用户集合。
计算种子用户关注者领域隶属度模块根据获取的各个领域的初始种子用户的关注用户,针对每个关注用户,计算该关注用户对于各个领域的领域隶属度,并将领域隶属度传输给在各个领域上按隶属度排序用户模块,在各个领域上按隶属度排序用户模块对每个关注用户的所有领域隶属度进行降序排序,并将排序后的领域隶属度传输给获取扩展的领域原型用户集合模块,获取扩展的领域原型用户集合模块,针对每个领域,选择具有该领域的最高领域隶属度的前K个用户与该领域的初始种子用户合并构成该领域的原型用户集合,也就是扩展的领域原型用户集合;其中,K为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310705515.7/2.html,转载请声明来源钻瓜专利网。