[发明专利]挖掘用户职业的方法、装置、计算机可读存储介质和终端设备有效
申请号: | 201810068937.0 | 申请日: | 2018-01-24 |
公开(公告)号: | CN110110213B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 张宗一;梁晨曦;谷皓;凌国惠;张功源 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 徐文静;陈世华 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 挖掘 用户 职业 方法 装置 计算机 可读 存储 介质 终端设备 | ||
本发明属于机器学习领域,提供了一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备,以精确预测用户的职业类型。所述方法包括:提取样本用户的特征值并将样本用户的特征值转换为样本用户的特征词;根据样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量;将待挖掘用户的嵌入向量与每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。本发明提供的技术方案一方面使得待挖掘用户与职业标签能够精确匹配;另一方面,在将待挖掘用户的嵌入向量与职业标签嵌入向量相匹配时,无需大量计算资源,计算速度极快。
技术领域
本发明属于机器学习领域,尤其涉及一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备。
背景技术
伴随着智能移动技术的发展,智能移动终端上安装的应用越来越多。用户通过应用的客户端接入互联网,与其他用户进行广泛的交互。有业界人士统计过,用户通过应用进行交互,在一小时中总共产生的数据是以T(1T=1024G)字节度量的。因此,在数据泛滥的今天,如何通过高效的手段精准挖掘一些应用的用户的信息,例如,社交类应用的用户的职业信息等,是许多业界人士研究和感兴趣的课题。
现有技术在挖掘用户的信息时,往往是基于用户个人的文本类数据进行,但这种方式存在极大的缺陷,其主要原因在于这种处理方式过于依赖自然语言处理技术。然而,理解自然语言,尤其是互联网上常见的短文本,需要大量的背景知识和上下文信息。在缺乏这些信息的情形下,即使是人工也无法准确理解文本的含义,目前的很多计算机算法对文本含义的识别效率和准确率也同样不理想。例如,社交类应用的用户过社交类应用发出一条包含“福田”的短语,由于“福田”既可以指深圳的福田区,又可以指“福田汽车”,在缺乏上下文信息的情形下,现有的挖掘用户的信息方法无法判断这个发出包含“福田”的短语的用户只是居住在深圳福田区的一位普通市民(例如,退休在家的大妈或大爷),还是福田汽车4S店的一位销售人员。
综上,现有的挖掘用户的信息,例如,职业信息的方法召回率和准确率都偏低,无法满足大数据时代人们对信息准确获取的要求。
发明内容
本发明的目的在于提供一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备,以精确预测用户的职业类型。
本发明第一方面提供一种挖掘用户职业的方法,所述方法包括:
提取样本用户的特征值,将所述样本用户的特征值转换为样本用户的特征词;
根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;
将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
本发明第二方面提供一种挖掘用户职业的装置,所述装置包括:
特征转换模块,用于提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;
嵌入向量获取模块,用于根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;
匹配模块,用于将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
本发明第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下方法的步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810068937.0/2.html,转载请声明来源钻瓜专利网。