[发明专利]一种获取社交媒体用户画像的方法及系统在审
申请号: | 202010401788.2 | 申请日: | 2020-05-13 |
公开(公告)号: | CN113672818A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 饶育蕾;郭刚刚 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33;G06N3/04;G06N3/08;G06N20/00;G06Q40/02 |
代理公司: | 长沙智路知识产权代理事务所(普通合伙) 43244 | 代理人: | 张毅 |
地址: | 410083 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 社交 媒体 用户 画像 方法 系统 | ||
1.一种获取社交媒体用户画像的方法,其特征在于,所述方法包括:
S1、针对预先获取的大数据中的每一条用户信息,确定每一用户信息的特征并生成与所述特征相应的标签;
其中,所述预先获取的大数据中包括多条用户信息;
所述每一条用户信息包括用户的:职业信息数据、文本数据、人口属性数据、行为信息、关系网络信息数据;
其中,所述职业信息包括:工作经历信息、职位信息、工作地点信息、行业领域信息、工作年限和登记注册类型信息;
其中,所述文本数据包括:用户在社交媒体上发表的文本;
其中,所述人口属性数据包括:性别、注册时长、用户关注者数量、被关注者数量、用户在社交媒体上所发的文本的数量;
其中,所述行为信息数据包括:用户在社交媒体上所发表的文本的总数量、用户在社交媒体上转发的文本的数量、用户分别使用不同的终端发表文本的数量、用户在预设时间段内发表文本的数量、任一用户所发表的文本被转发的次数、任一用户所发表的文本被赞的次数、任一用户所发表的文本被评论条数;
所述关系网络信息数据:用户关注的账户以及关注所述用户账户的账户;
S2、根据具有标签的用户信息,采用预先设定的多层深度的CNN算法针对所述具有标签的用户信息进行训练获取用于社交媒体用户画像预测的模型;
S3、获取待预测的用户信息;
S4、根据所述待预测的用户信息,采用所述训练后的社交媒体用户画像预测模型,获取待预测的用户的画像;
所述待预测的用户的画像为所述待预测的用户信息所对应的标签。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
针对每一用户信息中的职业信息数据,采用预先设定的第一划分规则,进行划分,确定所述每一用户信息的收入级别特征,并生成与所述收入级别特征对应的收入标签;
所述第一划分规则为根据岗位信息、工作地点信息、行业领域信息和企业性质信息按照预先设定的规则进行划分的规则;
其中,所述收入级别特征包括:第一收入级别特征、第二收入级别特征、第三收入级别特征、第四收入级别特征、第五收入级别特征、第六收入级别特征;
其中,所述收入标签包括:与所述第一收入级别特征对应的第一收入标签,与所述第二收入级别特征对应的第二收入标签,与所述第三收入级别特征对应的第三收入标签,与所述第四收入级别特征对应的第四收入标签,与所述第五收入级别特征对应的第五收入标签,与所述第六收入级别特征对应的第六收入标签。
3.根据权利要求2所述的方法,其特征在于,所述步骤S1还包括:
针对每一用户信息中的文本数据,进行主题特征提取和情感倾向特征提取,确定每一用户信息的主题特征和情感倾向特征,并生成与所述主题特征对应的主题标签和与所述情感倾向特征对应的情感标签。
4.根据权利要求3所述的方法,其特征在于,所述步骤S1包括
S11、针对每一用户信息的文本数据,采用预先设定的word2vec词向量模型获取第二文本数据;
其中所述第二文本数据为:采用向量化表示的文本数据;
S12、针对所述每一用户信息的第二文本数据,分别采用预先设定的LAD主题模型和预先设定的情感倾向模型,分别获取所述每一用户信息的主题特征以及与所述主题特征对应的主题标签以及所述每一用户信息的情感特征以及与所述情感特征对应的情感标签;
其中,所述主题特征包括:预先设定的250个主题特征中的至少一个;
其中,所述情感特征包括:积极和喜悦特征、积极和悲伤特征、积极和惊奇特征、积极和厌恶特征、消极和喜悦特征、消极和悲伤特征、消极和惊奇特征、消极和厌恶特征、中立和喜悦特征、中立和悲伤特征、中立和惊奇特征、中立和厌恶特征;
其中,所述LAD主题模型能够根据用户信息的第二文本数据确定所述用户信息的主题特征为预先设定的250个主题特征中的任一主题特征;
其中,所述预先设定的情感倾向模型为基于深度学习的word2vec抽取语料特征构建的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010401788.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:CMOS图像传感器及其形成方法
- 下一篇:一种吊篮用钢丝绳锁绳器