[发明专利]基于词向量的相似客群挖掘方法、装置、设备及存储介质有效

申请号：	202111011808.6	申请日：	2021-08-31
公开（公告）号：	CN113704411B	公开（公告）日：	2023-09-15
发明（设计）人：	李珊	申请（专利权）人：	平安银行股份有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/335;G06F40/194;G06F40/279;G06F40/30
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于向量相似挖掘方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及数据分析技术，揭露了一种基于词向量的相似客群挖掘方法，包括：提取客群信息的特征词并转换为词向量；统计特征词在客群信息中的词语位置，获取该位置的下文信息并转换为上下文向量；计算词向量与多个词语的词向量之间的相似度，汇集相似度大于预设相似阈值的词向量为相似词向量；将词向量、上下文向量和相似词向量拼接为客群信息的客群向量；计算客群向量与待挖掘客群的待挖掘向量的距离值，确定距离值小于预设距离阈值的待挖掘向量对应的待挖掘客群为预设客群的相似客群。此外，本发明还涉及区块链技术，客群信息可存储于区块链的节点。本发明还提出一种基于词向量的相似客群挖掘装置、设备及介质。本发明可以提高客群挖掘的精确度。

技术领域

本发明涉及数据分析技术领域，尤其涉及一种基于词向量的相似客群挖掘方法、装置、电子设备及计算机可读存储介质。

背景技术

用户是市场上各企业、厂商最重要的资源，随着大数据技术的发展，各企业、厂商越来越多地利用大数据技术对潜在用户进行挖掘，以扩大自身的用户群体，但由于每个用户数据的差异性，若对每一个用户进行分析以实现对用户的挖掘，会消耗大量的计算资源，且用户挖掘的效率较低，因此，客群挖掘的方法越来越被人们所重视。

现有的客群挖掘方法多为基于客群特征的硬匹配，例如，提取客群之间的关键词，将具有相同关键词的客群进行匹配，以实现相似客群的挖掘，但硬匹配的方法没有考虑到关键词包含多种具有相似含义的词语，或者关键词的含义可能会收上下文信息的影响，因此仅依靠关键词的硬匹配实现客群挖掘，会导致客群挖掘的精确度较低。

发明内容

本发明提供一种基于词向量的相似客群挖掘方法、装置及计算机可读存储介质，其主要目的在于解决进行客群挖掘时精确度的精确度较低的问题。

为实现上述目的，本发明提供的一种基于词向量的相似客群挖掘方法，包括：

获取预设客群的客群信息，提取所述客群信息的特征词，将所述特征词转换为特征词向量；

统计所述特征词在所述客群信息中的词语位置，获取所述客群信息中所述词语位置的预设范围内的上下文信息，对所述上下文信息进行向量转换，得到上下文向量；

计算所述特征词向量与预设多个词语的词向量之间的相似度，汇集所述预设多个词语中所述相似度大于预设相似阈值的词语的词向量为所述特征词的相似词向量；

将所述特征词向量、所述上下文向量和所述相似词向量拼接为所述客群信息的客群向量；