[发明专利]基于多层次数据表示学习的用户身份信息识别方法和装置有效
申请号: | 202210017977.9 | 申请日: | 2022-01-07 |
公开(公告)号: | CN114372136B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 赵涛;邓劲生;严少洁;宋省身;乔凤才;尹晓晴 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/36;G06F16/35;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 李杨 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多层次 数据 表示 学习 用户 身份 信息 识别 方法 装置 | ||
本申请涉及一种基于多层次数据表示学习的用户身份信息识别方法和装置。所述方法包括:通过获取社交媒体平台的发布信息数据和用户个人信息数据,进行过滤清洗预处理后,进行特征提取,然后通过数据表示算法对发布信息第一特征、发布信息第二特征、用户第一特征和用户第二特征进行表示学习,分别得到特征表示;通过构建用户表示模型,先根据发布信息的文本向量表示、发布信息第一特征和发布信息第二特征得到发布信息表示,再根据得到的发布信息表示,以及之前的用户第一特征表示和用户第二特征表示,得到用户表示,最后通过分类器根据用户表示进行用户身份信息预测;对用户表示模型进行训练,训练完成后用于基于社交平台数据的用户身份信息识别。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于多层次数据表示学习的用户身份信息识别方法和装置。
背景技术
随着互联网与智能手机的普及,全球数十亿用户在使用各类社交媒体应用,例如Twitter和新浪微博等,这些社交媒体用户每天都在产生海量丰富的数据资源。这些社交媒体数据包含大量多维度的个人信息,在一定程度上能够反应出用户的性别、年龄、职业等身份信息,蕴含着巨大的社会和商业价值。一方面,基于社交媒体用户产生的数据来识别用户的年龄、性别等信息,在个人定制服务、病毒式营销、推荐系统、定制广告等商业应用中具有重要的价值;另一方面,基于社交媒体数据识别个人的职业、社会经济地位等信息,不光可以帮助政府机构进行快速地人口普查统计、评估地区人口的发展状况,还能够帮助研究人员进行社会学、医学、经济学等跨学科研究,具有十分重要的社会和科学研究价值。
目前已有研究主要是基于用户的各类数据进行用户身份信息的识别推测,大多更注重前期数据特征提取和后期的用户分类模型的设计,但对用户各类数据本身的内在信息挖掘较少,对用户数据的结构特点缺乏深入的分析。之前这些研究工作往往是在假设数据特征之间相互独立的情况下直接使用其显示表示,没有考虑数据特征内在的重要信息挖掘,造成了一定的信息丢失。因此,现有的用户身份信息识别方法存在准确率不高的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高用户身份信息识别准确性的基于多层次数据表示学习的用户身份信息识别方法、装置、计算机设备和存储介质。
一种基于多层次数据表示学习的用户身份信息识别方法,所述方法包括:
获取社交媒体平台的发布信息数据和用户个人信息数据,对所述用户个人信息数据进行过滤清洗,对所述发布信息数据进行预处理,并根据预处理后的发布信息数据建立语料库;
根据所述预处理后的发布信息数据得到每条发布信息的发布信息第一特征和发布信息第二特征,根据过滤后的用户个人信息数据得到每个用户的用户第一特征和用户第二特征;所述发布信息第一特征为所述发布信息引起的互动数量的数值型信息;所述发布信息第二特征为所述发布信息的类别信息;所述用户第一特征为关于用户级别的数值型信息;所述用户第二特征为所述用户的类别型信息;
根据所述语料库得到发布信息对应的文本向量表示,通过数据表示算法对所述发布信息第一特征、所述发布信息第二特征、所述用户第一特征和所述用户第二特征进行表示学习,分别得到发布信息第一特征表示、发布信息第二特征表示、用户第一特征表示和用户第二特征表示;
将所述文本向量表示、所述发布信息第一特征表示、所述发布信息第二特征表示、所述用户第一特征表示和所述用户第二特征表示输入到预先设计的用户表示模型中;所述用户表示模型包括发布信息表示层、用户表示层和输出层;所述发布信息表示层用于根据所述文本向量表示、所述发布信息第一特征表示和所述发布信息第二特征表示得到发布信息表示;所述用户表示层用于根据所述发布信息表示、所述用户第一特征表示和所述用户第二特征表示得到用户表示;所述输出层用于根据所述用户表示得到用户身份信息识别结果;
根据预设的损失函数对所述用户表示模型进行训练,得到训练好的用户表示模型,通过所述训练好的用户表示模型进行用户身份信息识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210017977.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可压缩湍流燃烧大涡模拟中滤波压力计算方法及系统
- 下一篇:一种圈曲间隙保持器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置