[发明专利]一种基于链接网络的用户领域识别方法及其装置有效
申请号: | 201310705515.7 | 申请日: | 2013-12-19 |
公开(公告)号: | CN103761246A | 公开(公告)日: | 2014-04-30 |
发明(设计)人: | 刘春阳;程工;张旭;庞琳;王卿;吴俊杰;王亚琼;李红;韩小汀 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 周长琪 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 链接 网络 用户 领域 识别 方法 及其 装置 | ||
1.一种基于链接网络的用户领域识别装置,其特征在于,包括三个模块:数据收集与预处理模块,领域原型用户集合构建模块和用户领域计算模块;
其中,数据收集与预处理模块的功能是采集初始种子用户,爬取初始种子用户的关注用户列表;领域原型用户集合构建模块利用各个领域初始种子用户的关注用户,为各个领域构建原型用户;用户领域计算模块用来计算和排序选择待分类用户的各个领域隶属度;
数据收集与预处理模块包括手工采集样本模块以及运行爬虫/请求API(Application Programming Interface,应用程序编程接口)获取种子用户关注列表模块;
手工采集样本模块用于获取和存储各个领域的初始种子用户id,并将初始种子用户id传输给运行爬虫/请求API获取种子用户关注列表模块;运行爬虫/请求API获取种子用户关注列表模块根据各个领域的初始种子用户id获取各个领域的初始种子用户的关注用户;
领域原型用户集合构建模块包括:计算种子用户关注者领域隶属度模块、在各个领域上按隶属度排序用户模块、获取扩展的领域原型用户集合模块;
计算种子用户关注者领域隶属度模块根据获取的各个领域的初始种子用户的关注用户,针对每个关注用户,计算该关注用户对于各个领域的领域隶属度,并将领域隶属度传输给在各个领域上按隶属度排序用户模块,在各个领域上按隶属度排序用户模块对每个关注用户的所有领域隶属度进行降序排序,并将排序后的领域隶属度传输给获取扩展的领域原型用户集合模块;获取扩展的领域原型用户集合模块,针对每个领域,选择具有该领域的最高领域隶属度的前K个用户与该领域的初始种子用户合并构成该领域的原型用户集合,也就是该领域扩展的领域原型用户集合;其中,K为正整数;
用户领域计算模块包括运行爬虫/请求API获取待分类用户关注列表模块、计算待分类用户领域隶属度模块、对每个用户按隶属度排序领域模块、取前A个领域作为用户领域标签模块;其中,A为正整数;
运行爬虫/请求API获取待分类用户关注列表模块根据待分类用户,获取待分类用户的关注用户,将待分类用户的关注用户传输给计算待分类用户领域隶属度模块;计算待分类用户领域隶属度模块根据扩展的领域原型用户集合以及待分类用户的关注用户计算出待分类用户对于各个领域的领域隶属度,并将该待分类用户的领域隶属度传输给对每个用户按隶属度排序领域模块;对每个用户按隶属度排序领域模块对该待分类用户领域隶属度进行降序排序,并将排序后的待分类用户领域隶属度传输给取前A个领域作为用户领域标签模块,最后得到待分类用户的兴趣领域标签。
2.根据权利要求1所述的一种基于链接网络的用户领域识别装置,其特征在于,所述的计算种子用户关注者领域隶属度模块,根据下式计算初始种子用户的关注用户对应第i个领域上的领域隶属度M(f,Si):
其中,f表示初始种子用户的关注用户,N为领域个数,i表示第i个领域,Si表示第i个领域的初始种子用户集合,n(f,Si)表示初始种子用户的关注用户f被集合Si中用户关注的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310705515.7/1.html,转载请声明来源钻瓜专利网。