[发明专利]一种用户标签构建方法及装置有效
申请号: | 201810084131.0 | 申请日: | 2018-01-29 |
公开(公告)号: | CN108334588B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 马玉昆;王帅 | 申请(专利权)人: | 北京搜狐新媒体信息技术有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/958 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 标签 构建 方法 装置 | ||
本发明提供了一种用户标签构建方法及装置,该方法可通过分析访问文档的内容以及用户的行为特征,来计算访问文档所属类目的权重,进而利用权重选取用户标签以及用户标签的权重。基于本方法,全面刻画用户的阅读倾向,使用户标签体现用户文本阅读偏好,从而提高用户标签及其权重的准确性。
技术领域
本发明涉及文本处理技术领域,更具体地说,涉及一种用户标签构建方法及装置。
背景技术
用户上网访问文本内容,例如新闻时,对于用户阅读偏好的及时感知是构建用户画像的一项重要内容,而构建用户画像的核心工作就是为用户添加用于体现其特征和属性的标签。
现阶段,主要按照如下过程构建用户标签:将用户浏览的文本所在原始页面分类确定用户标签,进一步从用户浏览的文本中抽取关键词,形成属于该用户的关键词词袋库,此时可直接统计关键词频率刻画用户关键词权重,从而计算标签权重。
但是,一方面仅利用原始页面分类确定用户标签并不准确,另一方面所抽取关键词的质量很大程度上决定了标签的质量,而关键词的质量是很难评估的,这就会导致所得到的标签权重不准确。
发明内容
有鉴于此,本发明提供一种用户标签构建方法及装置,以解决用户标签和标签权重不准确的问题。技术方案如下:
一种用户标签构建方法,包括:
获取目标用户在当前构建时段内的访问文档,并确定所述访问文档的所属类目;
计算所述访问文档在所述类目下的访问文档向量和行为特征向量,其中,所述访问文档向量用于表征访问文档内容,所述行为特征向量用于表征所述目标用户浏览所述访问文档的行为特征;
根据所述访问文档向量和所述行为特征向量,计算所述类目的权重;
依据所述类目的权重从所述类目中选取目标类目,并将所述目标类目的标签作为所述目标用户在所述当前构建时段内的用户标签、将所述目标类目的权重作为所述用户标签的权重。
优选的,所述计算所述访问文档在所述类目下的访问文档向量和行为特征向量,包括:
利用预设词向量转换模型,将所述访问文档转换为在所述类目下的访问文档向量;
确定所述访问文档在所述类目下的行为特征以及所述行为特征的行为特征频率;
利用预设行为特征向量转换模型,将所述行为特征转换为初始行为特征向量;
根据所述初始行为特征向量以及所述初始行为特征向量所对应的所述行为特征频率,计算所述访问文档在所述类目下的行为特征向量。
优选的,所述根据所述访问文档向量和所述行为特征向量,计算所述类目的权重,包括:
根据所述访问文档向量和所述行为特征向量,计算所述访问文档在所述类目下的融合特征向量;
依据所述融合特征向量计算所述类目的语义向量;
对所述语义向量进行归一化,并利用归一结果计算所述类目的权重。
优选的,还包括:
判断所述目标用户在下一构建时段内所浏览的访问文档中是否存在属于所述类目的访问文档;
若否,根据预设衰减因子对所述类目的权重进行衰减处理。
优选的,还包括:
根据所述用户标签的权重生成所述用户标签的权重走势图。
一种用户标签构建装置,包括:确定模块、第一计算模块、第二计算模块和选取模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810084131.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:采购资质匹配方法和采购资质模型建立方法
- 下一篇:一种脸部护肤品推荐方法