[发明专利]一种基于社交平台数据的潜在用户识别方法及装置有效
申请号: | 202110008007.8 | 申请日: | 2021-01-05 |
公开(公告)号: | CN112699949B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 韩天奇;卢铮 | 申请(专利权)人: | 百威投资(中国)有限公司 |
主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F16/9536;G06F18/214 |
代理公司: | 北京正理专利代理有限公司 11257 | 代理人: | 张帆 |
地址: | 200001 上海市黄*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社交 平台 数据 潜在 用户 识别 方法 装置 | ||
本申请的一个实施例公开了一种基于社交平台数据的潜在用户识别方法及装置,该方法包括:S10、基于白名单词表和/或第一黑名单词表对从社交平台获取的数据进行预提取,得到无标签帖子集合T和无标签图像集合I;S20、利用训练好的N个图像分类模型对所述图像集合I进行图像分类,得到所述图像集合I对应的用户的第一分值,其中,N大于等于2;S30、基于异常用户数据检测得到所述帖子集合T对应的用户的第二分值;S40、基于第一分值与第二分值获得潜在用户分值。本申请提出了对社交数据进行预提取的方法获取潜在有用户,仅采集可能对品牌感兴趣的用户子集中的关键社交数据来识别用户兴趣,大规模减少了数据获取量和不必要的数据获取开销。
技术领域
本申请涉及数据挖掘领域。更具体地,涉及一种基于社交平台数据的潜在用户识别方法、装置、计算设备和存储介质。
背景技术
社交平台数据中存在海量数据,从中挖掘出用户的潜在兴趣。现有的数据挖掘、图像识别及自然与处理技术可以较好的挖掘出用户的一些通用兴趣,如美食、美妆和音乐等。现有技术中可以使用神经网络对用户文本进行embedding并提取用户兴趣或利用用户的文本信息和用户互动关系挖掘用户兴趣或针对某一用户的历史微博图文,分别从文本和图像提取语义特征,并通过这些特征识别用户兴趣倾向等。
实际应用中存在垂直领域的用户精细化兴趣挖掘,以啤酒行业为例,企业中需要挖掘的不仅仅是喜欢喝酒的用户,更需要进行精准定位,如啤酒还是白酒、什么档次、甚至具体到细分品牌和口味,经过喜欢酒=喜欢啤酒=喜欢高端啤酒=喜欢某牌高端啤酒某种口味的过滤后,细分用户的占比将在总数据中极少,这就大大增加了用户挖掘的难度,主要表现在:
1、细分兴趣用户的获取平均成本大幅度提升。在获取有效用户之前,需要先以一定策略在海量社交平台上获得原始数据,而细分兴趣用户在社交平台中占比和总量都很少。一方面由于占比很少,如果全量抓取社交平台数据会抓大大量数据,导致用户获取的平均成本极高;另一方面由于总量很少就希望能够尽可能少地遗漏掉这类用户。因此需要有一个较好的数据抓取策略可以以相对较少的数据抓取成本同时能够获得尽可能多的有效用户。
2、细分兴趣用户识别在召回率上要求更高。由于细分兴趣用户总量较少,因此希望能够尽可能高地提升有效用户的召回。例如识别喜欢喝酒的用户下单通过文字匹配就可以找到大量用户,并从中进一步筛选有效用户,而对于某品牌高端啤酒如果也用文字匹配,其总量本身就会很少,因此需要扩大搜索范围,例如某些提到酒的用户可能在配图中发出了该品牌啤酒的图,说明该用户也可能是一个有效用户,因此需要结合更多的信息进行筛选。
3、细分兴趣用户识别在准确率上要求更高。区别于通用兴趣,细分兴趣更加细化也更容易受到其他类似兴趣的干扰。例如在图像识别中啤酒和小动物在形状、颜色、材质反射上都会有很明显的特征差异,而具体到高端啤酒间不同品牌的识别,它们的形状材质通常非常接近,仅有一些如商标等细节上的差异,因此在识别上难度更大。
4、细分兴趣用户识别缺乏有效的数据训练模型。现有数据集中有很多通用的对象识别数据和算法可以使用(如imagenet,places365),因此如果只是识别美食餐馆这种通用兴趣可以有效利用这些数据集,而特定到具体细分品牌则难以直接使用这些数据。此外,由于这些数据本身总量较少,直接人工标注也将浪费大量人力在负样本标注下。因此需要一种有效的半监督学习方法实现算法的冷启动。
5、细分兴趣用户识别更容易受到其他噪音的干扰。由于细分兴趣用户总量本身较少,有可能低于其他噪音的出现概率。例如啤酒品牌“福佳”出现的频率可能会小于以“福佳”命名的小区或者电视剧中的人名。又如在发图的用户中可能大量是进行推销的用户而并非对该品牌啤酒感兴趣。而传统的异常检测算法是假设要找的数据量远远大于异常数据量,这就增加了异常数据筛选的难度。
发明内容
有鉴于此,本申请提出了一种基于社交平台数据的潜在用户识别方法、装置、计算设备和存储介质。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百威投资(中国)有限公司,未经百威投资(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110008007.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种投资组合风险评估系统、方法及计算机设备
- 下一篇:一种变位机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置