[发明专利]一种群体用户画像获取方法、装置、电子设备及存储介质在审
申请号: | 202110192229.X | 申请日: | 2021-02-19 |
公开(公告)号: | CN112905783A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 李涵 | 申请(专利权)人: | 卓尔智联(武汉)研究院有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F16/9535;G06K9/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 李路遥;张颖玲 |
地址: | 432200 湖北省武汉市黄陂区盘龙城经*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 群体 用户 画像 获取 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种群体用户画像获取方法、装置、电子设备及存储介质。其中,群体用户画像获取方法包括:基于用户的WEB日志数据,提取对应的用户特征;基于提取出的至少一个用户中的每个用户对应的用户特征,对所述至少一个用户进行聚类,得到每个类别对应的群体用户画像。
技术领域
本申请属于数据处理技术领域,尤其涉及一种群体用户画像获取方法、装置、电子设备及存储介质。
背景技术
用户画像是用户信息的标签化,实现对用户特征的精炼概括。用户画像具有语义性和短文本性,既方便用来快速理解用户特征也能被计算机进行快速处理。随着社会的进步和科技水平的发展,用户画像被广泛应用于各类推荐系统中。用户画像不仅可以用来分析用户特征,还可以用来进行用户间的关联特征分析,即群体用户画像分析。相关技术中,群体用户画像通常是在样本用户的用户画像的基础上进行聚类得到的,而样本用户的数量是有限的,因此,基于数量有限的样本用户的用户画像得出的群体用户画像可能无法准确地体现用户群体真实的特征。
发明内容
有鉴于此,本申请实施例的主要目的在于提供一种群体用户画像获取方法、装置、电子设备及存储介质,以解决相关技术中基于现有用户画像获取的群体用户画像准确性低的技术问题。
为达到上述目的,本申请实施例的技术方案是这样实现的:
本申请实施例提供了一种群体用户画像获取方法,所述方法包括:
基于用户的万维网(WEB,World Wide Web)日志数据,提取对应的用户特征;
基于提取出的至少一个用户中的每个用户对应的用户特征,对所述至少一个用户进行聚类,得到每个类别对应的群体用户画像。
上述方案中,所述基于用户的WEB日志数据,提取对应的用户特征,包括:
基于用户的WEB日志数据,确定用户访问过的网页的网页文本;
基于所述用户访问过的网页的网页文本,提取对应的用户特征。
上述方案中,在所述基于用户的WEB日志数据,提取对应的用户特征时,包括:
基于所述WEB日志数据中的用户标识信息,确定提取出的用户特征对应的用户。
上述方案中,所述基于所述WEB日志数据中的用户标识信息,确定WEB日志数据对应的用户,包括:
基于所述WEB日志数据中的网际协议(IP,Internet Protocol)地址信息,确定所述WEB日志数据对应的至少一个用户;
和/或,
基于所述WEB日志数据中的操作系统信息,确定所述WEB日志数据对应的至少一个用户。
上述方案中,在所述基于用户的WEB日志数据,提取对应的用户特征之前,所述方法还包括:
通过以下至少一种方式对所述WEB日志数据进行数据清洗:
将所述WEB日志数据中后缀不满足设定条件的WEB日志数据转换为后缀满足设定条件的WEB日志数据;
删除所述WEB日志数据中状态码不符合设定条件的WEB日志数据;
删除所述WEB日志数据中内容存在缺失的WEB日志数据;
删除所述WEB日志数据中与其他WEB日志数据的内容存在重复的WEB日志数据。
上述方案中,所述基于用户的WEB日志数据,提取对应的用户特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卓尔智联(武汉)研究院有限公司,未经卓尔智联(武汉)研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110192229.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:太赫兹系统及方法
- 下一篇:一种歌词文件生成方法及装置