[发明专利]一种群体用户画像获取方法、装置、电子设备及存储介质在审
申请号: | 202110192229.X | 申请日: | 2021-02-19 |
公开(公告)号: | CN112905783A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 李涵 | 申请(专利权)人: | 卓尔智联(武汉)研究院有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F16/9535;G06K9/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 李路遥;张颖玲 |
地址: | 432200 湖北省武汉市黄陂区盘龙城经*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 群体 用户 画像 获取 方法 装置 电子设备 存储 介质 | ||
1.一种群体用户画像获取方法,其特征在于,所述方法包括:
基于用户的万维网WEB日志数据,提取对应的用户特征;
基于提取出的至少一个用户中的每个用户对应的用户特征,对所述至少一个用户进行聚类,得到每个类别对应的群体用户画像。
2.根据权利要求1所述的群体用户画像获取方法,其特征在于,所述基于用户的WEB日志数据,提取对应的用户特征,包括:
基于用户的WEB日志数据,确定用户访问过的网页的网页文本;
基于所述用户访问过的网页的网页文本,提取对应的用户特征。
3.根据权利要求1所述的群体用户画像获取方法,其特征在于,在所述基于用户的WEB日志数据,提取对应的用户特征时,包括:
基于所述WEB日志数据中的用户标识信息,确定提取出的用户特征对应的用户。
4.根据权利要求3所述的群体用户画像获取方法,其特征在于,所述基于所述WEB日志数据中的用户标识信息,确定WEB日志数据对应的用户,包括:
基于所述WEB日志数据中的网际协议IP地址信息,确定所述WEB日志数据对应的至少一个用户;
和/或,
基于所述WEB日志数据中的操作系统信息,确定所述WEB日志数据对应的至少一个用户。
5.根据权利要求1所述的群体用户画像获取方法,其特征在于,在所述基于用户的WEB日志数据,提取对应的用户特征之前,所述方法还包括:
通过以下至少一种方式对所述WEB日志数据进行数据清洗:
将所述WEB日志数据中后缀不满足设定条件的WEB日志数据转换为后缀满足设定条件的WEB日志数据;
删除所述WEB日志数据中状态码不符合设定条件的WEB日志数据;
删除所述WEB日志数据中内容存在缺失的WEB日志数据;
删除所述WEB日志数据中与其他WEB日志数据的内容存在重复的WEB日志数据。
6.根据权利要求1所述的群体用户画像获取方法,其特征在于,所述基于用户的WEB日志数据,提取对应的用户特征,包括:
基于用户的WEB日志数据中对应的每个网页文本中的每个词的逆文本频率IDF的平方,确定所述每个网页文本中的每个词的词频-逆文本频率TF-IDF值;
基于所述每个网页文本中的每个词的TF-IDF值,提取对应的用户特征。
7.根据权利要求6所述的群体用户画像获取方法,其特征在于,所述确定所述每个网页文本中的每个词的TF-IDF值,包括:
设置第一权重大于第二权重;其中,
所述第一权重表征位于所述每个网页文本的标题和/或首段位置的词的权重;所述第二权重表征除对应第一权重的词之外其他词的权重。
8.一种群体用户画像获取装置,其特征在于,所述装置包括:
提取单元,用于基于用户的WEB日志数据,提取对应的用户特征;
聚类单元,用于基于提取出的至少一个用户中的每个用户对应的用户特征,对所述至少一个用户进行聚类,得到每个类别对应的群体用户画像。
9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器用于运行所述计算机程序时,执行权利要求1-7任一项所述方法的步骤。
10.一种存储介质,其上存有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卓尔智联(武汉)研究院有限公司,未经卓尔智联(武汉)研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110192229.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:太赫兹系统及方法
- 下一篇:一种歌词文件生成方法及装置