[发明专利]一种向量生成方法及装置在审
申请号: | 201811636919.4 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109741105A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 苗泽民;田园 | 申请(专利权)人: | 星潮闪耀移动网络科技(中国)有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘昕;南霆 |
地址: | 100193 北京市海淀区东北旺西路中关村软件*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 稠密 身份特征数据 身份特征 向量维度 输出结果生成 输出结果 向量生成 预设 预先建立 和运算 热编码 维度 存储 申请 | ||
本申请公开了一种向量生成方法及装置,该方法包括:获取身份特征数据;将所述身份特征数据作为预先建立的稠密向量相关模型的输入值,并获取所述模型的稠密向量输出结果,其中所述稠密向量输出结果的向量维度为预设值;根据模型的稠密向量输出结果生成向量维度为所述预设值的身份特征稠密向量。由于能够将所获取的身份特征数据作为稠密向量相关模型的输入值,并最终根据模型的稠密向量输出结果生成身份特征稠密向量,从而克服了现有技术中,独热编码身份特征向量通常只有一个或少数几个维度的特征值不为0,在向量维度较多的情况下,造成存储和运算资源的浪费的问题。
技术领域
本申请涉及机器学习领域,尤其涉及一种向量生成方法及装置。
背景技术
随着互联网的蓬勃发展,通常使用所训练的计算机模型来进行一些事务处理,比如通过计算机模型评估广告的点击率等。在某些计算机模型的训练过程中,可能会用到身份(identification,ID)特征,这些身份特征包括用户标识、广告标识、客户标识等。
在实际应用中,往往将多个身份特征以独热编码(one hot)的方式生成身份特征向量,从而用于计算机模型的训练。在独热编码的身份特征向量中,身份特征向量的每一个维度分别代表一个身份特征,当某一个维度的特征值不为0时,表示该身份特征向量包含该维度所对应的身份特征。相反,如果某个维度特征值为0,则表示该身份特征向量不包含对应的身份特征。
但是,由于独热编码的身份特征向量中,通常只有一个或少数几个维度的特征值不为0,因此当身份特征向量的维度较多时,大量特征值为0的独热编码身份特征向量会造成存储和运算资源的浪费。
发明内容
本申请实施例提供一种向量生成方法及装置,能够用于解决现有技术中独热编码的身份特征向量所造成存储和运算资源的浪费。
本申请实施例提供了一种向量生成方法,该方法包括:
获取身份特征数据;
将所述身份特征数据作为预先建立的稠密向量相关模型的输入值,并获取所述模型的稠密向量输出结果,其中所述稠密向量输出结果的向量维度为预设值;
根据模型的稠密向量输出结果生成向量维度为所述预设值的身份特征稠密向量。
优选的,获取身份特征数据,具体包括:从用户行为日志中提取用户标识以及对应的至少一个行为对象标识;
根据所述用户标识以及对应的各行为对象标识生成所述身份特征数据。
优选的,所述身份特征稠密向量包括用户标识稠密向量和行为对象标识稠密向量;则,
根据模型的稠密向量输出结果生成身份特征稠密向量,具体包括:
根据所述身份特征数据中用户标识的稠密向量输出结果,生成用户标识稠密向量;以及,
根据所述身份特征数据中各行为对象标识的稠密向量输出结果的平均值,生成行为对象标识稠密向量。
优选的,所述方法还包括:对所述模型的稠密向量输出结果的准确性进行评估。
优选的,对所述模型的稠密向量输出结果的准确性进行评估,具体包括:
确定测试样本集以及所述测试样本集中各标准向量对应的标签;
根据与所述稠密向量输出结果的向量距离由小到大的顺序,从所述测试样本集中确定出多个目标标准向量;
根据各所述目标标准向量分别对应的标签与稠密向量输出结果的标签是否一致,对所述输出结果的准确性进行评估。
优选的,所述稠密向量相关模型,具体包括:skip-gram结构的word2vec模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于星潮闪耀移动网络科技(中国)有限公司,未经星潮闪耀移动网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811636919.4/2.html,转载请声明来源钻瓜专利网。