[发明专利]一种基于无监督权值计算的用户兴趣标签构建方法有效

专利信息
申请号: 201911283767.9 申请日: 2019-12-13
公开(公告)号: CN111177538B 公开(公告)日: 2023-05-05
发明(设计)人: 张克克 申请(专利权)人: 杭州顺网科技股份有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/35;G06F40/216;G06F40/289
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 王琛
地址: 310013 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督权 计算 用户 兴趣 标签 构建 方法
【权利要求书】:

1.一种基于无监督权值计算的用户兴趣标签构建方法,包括如下步骤:

(1)对于任一兴趣标签,收集一定数量用户在过去一定时长范围内与该标签相关应用的启动行为数据、搜索行为数据、浏览行为数据;

(2)通过分词处理以及tf-idf算法将搜索及浏览行为文本类的非结构化数据转换成结构化数据;

(3)利用时间衰减因子、成本因子和热度因子对以上三种行为数据进行预处理,得到启动行为、搜索行为、浏览行为分别对应的行为次数x1~x3

(4)确定每个用户的行为向量X=(x1,x2,x3,fx),对所有用户的行为向量从大到小进行排序,fx为三种行为次数的频数和;

(5)计算每个参与排序的用户行为向量的概率值p=f/n,f为小于等于本用户行为向量的总向量数,n为参与排序的所有用户行为向量数量;

(6)利用参与排序的所有用户行为向量及其概率值作为输入,对Logistic回归模型进行训练,得到用于计算用户兴趣标签权值的Logistic分布函数,利用该分布函数即可完成用户标签权值的计算和用户兴趣标签的构建;所述Logistic回归模型的表达式如下:

其中:weight(X)中为用户的兴趣标签权值,θ0为常数值,θ1、θ2、θ3分别对应启动、搜索、浏览三种行为的权重系数;训练过程中将用户行为向量中的x1~x3输入至模型中,使用户行为向量的概率值p作为weight(X),从而通过拟合确定θ0、θ1、θ2和θ3的具体数值。

2.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:所述启动行为数据是指用户在使用与用户兴趣相关的应用时的启动次数数据,搜索行为数据是指用户搜索与兴趣标签相关的内容数据,浏览行为数据是指用户浏览与兴趣标签相关的页面内容数据。

3.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:所述步骤(2)的具体实现过程为:首先对于搜索行为数据或浏览行为数据中的每一组内容通过分词处理切分成一个个单词,保留名词、动词以及形容词这三种词性的文本,然后按相关性规则重新组合成新的词序列,进而将分词后的结果按照用户、文本、出现次数输入到tf-idf算法程序中,计算出每个单词的tf-idf值,根据分词前的行为类型获得结构化的搜索行为数据和浏览行为数据。

4.根据权利要求3所述的用户兴趣标签构建方法,其特征在于:对于任一单词w,通过以下公式计算单词w的tf-idf值;

tf-idf值=TF*IDF。

5.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:为了提升数据的质量,将分散、凌乱、标准不统一的数据整合到一起,为之后的分析算法提供分析数据,在完成步骤(2)后对启动、搜索、浏览这三种行为的结构化数据进行数据抽取、转换、装载后以统一格式加载进数据库中。

6.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:所述步骤(3)中对于启动行为数据,则对其进行去除成本因子处理、降热度处理以及时间衰减处理;对于搜索行为数据或浏览行为数据,则对其进行降热度处理和时间衰减处理。

7.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:所述步骤(4)中对所有用户行为向量进行排序的标准为:对于任意两个用户,若两者的行为向量分别为R=(r1,r2,r3,fr)和S=(s1,s2,s3,fs),若r1=s1且r2=s2且r3=s3,则判定R=S;若a1>0且a1+a2>0且a1+a2+a3>0,则判定R>S;若a1<0且a1+a2<0且a1+a2+a3<0,则判定R<S;其中ai=si-ri,i=1、2或3,fr和fs分别为行为向量R和S中的频数和,对于其余不满足以上三种判断条件的用户行为向量,则不参与排序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州顺网科技股份有限公司,未经杭州顺网科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911283767.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top