[发明专利]一种基于社交信息的用户属性预测方法与系统有效
申请号: | 201710305848.9 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107169063B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 王平辉;陶敬;陈雅静;管晓宏;梁肖;孙飞扬;兰林;贾鹏;潜禹桥;孙立远;柳哲 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N5/02;G06Q50/00 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社交 信息 用户 属性 预测 方法 系统 | ||
本发明提供一种基于社交信息的用户属性预测方法与系统,根据用户加入的社交群组预测用户的真实身份属性,包括数据获取,文本分析、社交群组分析和用户属性预测;获取全国学校名称及专业名称,构建先验知识库,提取专业/学校简称特征,使用分类器预测简称,完善先验知识库;基于关键字匹配对社交群组进行分析,刻画用户教育背景;根据经验和3σ原则,计算每个群组对预测所能提供的价值信息;考虑各群组差异性,根据用户加入群组中是否有班级群信息,筛选出对应的社交群组,评估每个群组提供的信息,加权计算预测用户属性;本发明可用于用户属性真实性检测;也可以用于用户社交信息检测;还可根据预测出的用户属性,进行消息的精准推送、好友推荐等。
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于社交信息的用户属性预测方法与系统。
背景技术
随着互联网技术的不断发展,“数据及资源”的大数据时代已经来临。而在近几年,用户信息泄露事件层出不穷,2011年,CSDN网站的数据被拖库,紧接着,2012年天涯论坛4000万信息泄露,2013年,社交网站Facebook上600万用户的个人信息,如电话、住址、电子邮箱等也被泄露出去,同年,美国著名软件公司Adobe的数据也大批泄露,其中包含了用户姓名信用卡以及信用卡的过期时间,2014年,我国铁路订票网站12306也出现用户数据的泄露,同年,携程网也被报出存在漏洞,而就在最近,京东12G用户数据也疑似泄露。
当今,生活在互联网时代,网络成为人们传递消息的高速载体。而很多网站出于安全考虑,设置需要用户登录访问,这样频繁的注册登录势必降低了用户体验。所以许多网站和手机APP都支持OAuth协议,允许用户通过如腾讯QQ、微博等第三方社交网络账号进行登录,使得用户不向第三方暴露自己的登录信息的同时,也能访问站点资源。因此,这样在多个站点的用户访问信息因社交账号的关系而进行关联。
基于上面提到的泄露数据,通过对大量用户数据进行综合分析、建模、预测可形成完整的用户画像。利用这部分数据,对企业也来说,能够指导产品研发以及优化用户体验;对广告商来说,可以实现精准化营销,实现巨额收益。另外,这些信息也可能会被恶意利用,,一些不法分子或诈骗集团,利用得到的用户真实数据,赢取用户信任,从而进行诈骗,造成用户巨大损失。
这里主要通过关联多个泄露站点的数据,分析用户个人属性以及社交关系,预测用户真实属性(因网络的虚拟性,用户更倾向于使用一些虚假信息隐藏自己),揭露用户的隐私泄露现状。综上,融合多站点的多类型数据,挖掘用户真实属性,告知用户画像预测的真实姓名、年龄、班级等隐私信息,便于用户了解自身隐私泄露现状,加强用户的隐私保护意识,具有极为重要的理论和现实意义。
目前已经有一些方法通过分析用户好友信息来推断用户属性,但是这些方法主要是基于用户在社交网站上的好友关系,构建社交关系图,通过基于图的属性传播方法来推测用户属性。为了推测用户的属性,传统方法需要知道用户的所有好友,然后根据好友信息推测用户属性,然而,用户好友关系亲疏有别,提供的信息价值也不尽相同。所以仅凭好友来推断用户属性必然存在瓶颈,要加入新的特征来突破。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于社交信息的用户属性预测方法与系统,本发明考虑用户在不同社交群组中的关系,有区分、加权性地计算用户加入的不同社交群组提供的信息,给可信度更高的社交群组更高的权值,使得最终的预测结果更准确;另外,本发明考虑专业简称来对社交群组进行分类,并对缺失专业简称的专业利用分类模型生成对应的专业简称,完善了先验知识库,使得给社交群组分类结果更精确。
为了实现上述目的,本发明采用的技术方案是:
一种基于社交信息的用户属性预测方法,包括:
数据获取:获取全国各学校名称及专业名称,构建先验知识库;
文本分析:对得到的全国各学校名称及专业名称进行处理,输出高校简称和专业简称,完善先验知识库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710305848.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置