[发明专利]基于词向量的相似客群挖掘方法、装置、设备及存储介质有效
申请号: | 202111011808.6 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113704411B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 李珊 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F40/194;G06F40/279;G06F40/30 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 相似 挖掘 方法 装置 设备 存储 介质 | ||
本发明涉及数据分析技术,揭露了一种基于词向量的相似客群挖掘方法,包括:提取客群信息的特征词并转换为词向量;统计特征词在客群信息中的词语位置,获取该位置的下文信息并转换为上下文向量;计算词向量与多个词语的词向量之间的相似度,汇集相似度大于预设相似阈值的词向量为相似词向量;将词向量、上下文向量和相似词向量拼接为客群信息的客群向量;计算客群向量与待挖掘客群的待挖掘向量的距离值,确定距离值小于预设距离阈值的待挖掘向量对应的待挖掘客群为预设客群的相似客群。此外,本发明还涉及区块链技术,客群信息可存储于区块链的节点。本发明还提出一种基于词向量的相似客群挖掘装置、设备及介质。本发明可以提高客群挖掘的精确度。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于词向量的相似客群挖掘方法、装置、电子设备及计算机可读存储介质。
背景技术
用户是市场上各企业、厂商最重要的资源,随着大数据技术的发展,各企业、厂商越来越多地利用大数据技术对潜在用户进行挖掘,以扩大自身的用户群体,但由于每个用户数据的差异性,若对每一个用户进行分析以实现对用户的挖掘,会消耗大量的计算资源,且用户挖掘的效率较低,因此,客群挖掘的方法越来越被人们所重视。
现有的客群挖掘方法多为基于客群特征的硬匹配,例如,提取客群之间的关键词,将具有相同关键词的客群进行匹配,以实现相似客群的挖掘,但硬匹配的方法没有考虑到关键词包含多种具有相似含义的词语,或者关键词的含义可能会收上下文信息的影响,因此仅依靠关键词的硬匹配实现客群挖掘,会导致客群挖掘的精确度较低。
发明内容
本发明提供一种基于词向量的相似客群挖掘方法、装置及计算机可读存储介质,其主要目的在于解决进行客群挖掘时精确度的精确度较低的问题。
为实现上述目的,本发明提供的一种基于词向量的相似客群挖掘方法,包括:
获取预设客群的客群信息,提取所述客群信息的特征词,将所述特征词转换为特征词向量;
统计所述特征词在所述客群信息中的词语位置,获取所述客群信息中所述词语位置的预设范围内的上下文信息,对所述上下文信息进行向量转换,得到上下文向量;
计算所述特征词向量与预设多个词语的词向量之间的相似度,汇集所述预设多个词语中所述相似度大于预设相似阈值的词语的词向量为所述特征词的相似词向量;
将所述特征词向量、所述上下文向量和所述相似词向量拼接为所述客群信息的客群向量;
获取待挖掘客群的客群信息,提取所述待挖掘客群的客群信息的特征词,并将所述待挖掘客群的客群信息的特征词转换为待挖掘向量;
计算所述客群向量与所述待挖掘向量的距离值,确定所述距离值小于预设距离阈值的待挖掘向量对应的待挖掘客群为所述预设客群的相似客群。
可选地,所述提取所述客群信息的特征词,包括:
删除所述客群信息中的无义词,并对所述客群信息进行分词处理,得到客群分词;
统计所述客群分词中每一个分词在所述客群分词中出现的分词频率;
获取预设用户对所述客群分词中每一个分词标记的词语热度;
利用预设的关键值算法,根据所述分词频率和所述词语热度计算所述客群分词中每一个分词的关键值;
汇集所述客群分词中所述关键值大于预设关键阈值的分词为所述客群信息的特征词。
可选地,所述将所述特征词转换为特征词向量,包括:
从预设的字向量表中查询所述特征词的每一个字的字向量;
按照所述特征词中每一个字的顺序将所述字向量拼接为所述特征词的特征词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111011808.6/2.html,转载请声明来源钻瓜专利网。