[发明专利]基于评分和标签构建用户群体模型的电子商务推荐方法在审

专利信息
申请号: 201510328864.0 申请日: 2015-06-15
公开(公告)号: CN104915861A 公开(公告)日: 2015-09-16
发明(设计)人: 郭飞鹏;谢红华;卢琦蓓;宋志序;刘东升;赵毅 申请(专利权)人: 浙江经贸职业技术学院;浙江金大科技有限公司
主分类号: G06Q30/02 分类号: G06Q30/02;G06F17/30
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;黄美娟
地址: 310018 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及电子商务智能推荐领域,具体涉及一种基于评分和标签构建用户群体模型的电子商务推荐方法。特别是适用于用户和资源数量庞大,具有标签的群体用户的资源推荐,利用群体用户模型的特点可以缓解用户数据稀疏的问题,提高推荐质量。本发明结合标签和评分信息,通过用户特征分析建立用户的群体模型,然后基于用户的群体模型计算用户对资源的兴趣度,在用户评分的基础上提出了利用标签分析理解评分的内在含义的方法,克服了单纯利用评分信息量较少的问题,从而更加准确的把握用户的兴趣点,同时丰富了用户可用信息,有利于缓解评分稀疏性的问题,形成比较好的推荐结果。
搜索关键词: 基于 评分 标签 构建 用户 群体 模型 电子商务 推荐 方法
【主权项】:
基于评分和标签构建用户群体模型的电子商务推荐方法,包括以下步骤:步骤1基于用户特征的用户群体构建;用户特征集UC,是用户个体u本身的多种特征集合,有年龄、性别、婚姻、教育、职业和地域,则定义用户特征集为,UC={Age,Gender,Marriage,Education,Occupation,Region…};根据用户的特征数据集可以计算用户特征相似度,cli表示第i种特征的相似度;(1)年龄:用户u和v之间的年龄相似度计算方法如下,<mrow><msub><mi>cl</mi><mn>1</mn></msub><mo>=</mo><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><mn>1</mn><mo>-</mo><mfrac><mrow><mo>|</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>-</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>10</mn></mfrac><mo>,</mo></mrow></mtd><mtd><mrow><mo>|</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>-</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo><mo>&le;</mo><mn>10</mn></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mo>|</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>-</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo><mo>&gt;</mo><mn>10</mn></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>(2)性别、婚姻:用1和0分别表示用户的性别为男或女,用1和0分别表示婚姻“是或否”;(3)教育背景:按高中以下、高中、本科、硕士、博士,分别记为{1,2,3,4,5},cl3具体计算如下,<mrow><msub><mi>cl</mi><mn>3</mn></msub><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mo>|</mo><mi>E</mi><mi>d</mi><mi>u</mi><mi>c</mi><mi>a</mi><mi>t</mi><mi>i</mi><mi>o</mi><mi>n</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>-</mo><mi>E</mi><mi>d</mi><mi>u</mi><mi>c</mi><mi>a</mi><mi>t</mi><mi>i</mi><mi>o</mi><mi>n</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>4</mn></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>(4)职业:按不同职业种类记为{0,1,2,…,n};n表示职业的种类数;(5)地域:长期居住地相同并且居住地的行政区域单位越小则用户的相似度越高,cl5具体计算方法为,若用户u与用户v的家庭所在地位于同一乡镇或街道则为1,位于相同县则为0.8,位于相同市则为0.6,位于相同省则为0.4,位于相同国家则为0.2,其余均为0;用户u和用户v的特征相似度可以定义为所有k个用户特征属性的平均相似度,计算公式如下,<mrow><mi>s</mi><mi>i</mi><mi>m</mi><mi>u</mi><mi>s</mi><mi>e</mi><mi>r</mi><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msub><mi>w</mi><mi>i</mi></msub><mo>&times;</mo><msub><mi>cl</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>其中,wi表示第i个用户特征属性的权重;基于群体的用户建模通过联合群体内所有用户的标注行为建立用户模型,反映了具有相同用户特征的用户可能具有的兴趣偏好;步骤2用户标签初始权重计算;采用基于信息熵的方法来定义标签反映用户兴趣的初始权重,有助于体现用户的多兴趣性:d(t)=log(fu(t)/fu+1)    (6)其中,d(t)表示用户u对标签t的初始兴趣权重,fu(t)表示用户u使用标签t进行标注的频数,fu表示用户u使用标签总频数,d(t)∈[0,1];步骤3标签关联权重计算;定义一个标签关联度来表示这种标签之间相关性;当用户通过一组标签共同标注一个资源时,则这一组标签之间有一定的语义相关性,用户的整个标签集合可以通过这种关系联系起来;<mrow><mi>c</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>t</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><msub><mi>R</mi><mi>i</mi></msub><mo>&cap;</mo><msub><mi>R</mi><mi>j</mi></msub><mo>|</mo></mrow><mrow><mo>|</mo><msub><mi>R</mi><mi>i</mi></msub><mo>&cup;</mo><msub><mi>R</mi><mi>j</mi></msub><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>其中,c(ti,tj)表示标签ti,tj之间的关联系数,Ri,Rj分别表示标签ti,tj所标注的资源的集合;用户的标签权重不仅与标签自身的频率有关,还与该标签相关联的其它标签的权重有关,将标签从其它标签获得的权重定义为关联性权重;标签t从其它标签获得的关联性权重p(t)为,<mrow><mi>p</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>T</mi><mi>u</mi></msub></mrow></munder><mi>c</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>Tu为用户u使用的标签集合;d(ti)表示用户u对标签ti的初始兴趣权重;步骤4,最终用户标签权重计算;通过以上对用户标签的分析,得到最终的用户标签权重wu(t)为:wu(t)=αd(t)+(1‑α)p(t)   (9)其中α是训练参数,根据用户反馈进行调整;步骤5资源标签分析与计算;资源标签分析用标签权重wi(t)来刻画各个标签对于资源的不同反映程度,对于同一个资源,用户使用相同的标签标注的次数越多,则这个标签越能反映用户对该资源的认知;借鉴TF*IDF公式,则标签t对资源i的权重wi(t)为:<mrow><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>T</mi><mi>F</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>*</mo><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mo>|</mo><mi>I</mi><mo>|</mo><mo>/</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><mn>0.01</mn><mo>)</mo></mrow></mrow><msqrt><mrow><munder><mo>&Sigma;</mo><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mi>i</mi></msub></mrow></munder><msup><mrow><mo>(</mo><mi>T</mi><mi>F</mi><mo>(</mo><mi>i</mi><mo>,</mo><mi>t</mi><mo>)</mo><mo>*</mo><mn>1</mn><mi>o</mi><mi>g</mi><mo>(</mo><mo>|</mo><mi>I</mi><mo>|</mo><mo>/</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><mn>0.01</mn><mo>)</mo><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>其中,TF(i,t)表示所有用户对资源i使用标签t进行标注的频率,|I|表示所有资源的个数,nt表示使用标签t标注过的资源的个数,分母为归一化因子;由资源标签分析,将用户对资源的评分分散给每个对资源进行标注的标签,则用户u对资源i的评分分散给标签t的评分为:<mrow><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mo>|</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>|</mo><mfrac><mrow><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub></mrow></msub><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><msub><mi>R</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow>其中,Tu,i为用户u对资源i使用的标签的集合,|Tu,i|为Tu,i中标签的个数,Ru,i为用户u对资源i的评分;用户u对标签t的兴趣度ru,t为,<mrow><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mfrac><mrow><munder><mo>&Sigma;</mo><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mi>u</mi></msub></mrow></munder><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><msub><mi>w</mi><mi>u</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>f</mi><mi>u</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>其中,fu(t)表示用户u使用标签t对资源标注的频数,Tu为用户u使用的标签集合;标签t对资源i的表示程度ri,t为,<mrow><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mfrac><mrow><munder><mo>&Sigma;</mo><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mi>i</mi></msub></mrow></munder><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub></mrow><mrow><mi>f</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>其中,fi(t)表示资源i被标签t标注的频数,Ti为所有对资源i标注的标签集合;步骤6,资源推荐;个性化推荐系统的最终目标是找到与用户兴趣度匹配最高的资源,由于标签是联系用户和资源的纽带,选择与目标用户具有共同标签的资源组成候选推荐资源集合,并通过计算用户与资源的相似度,按照一定的方式将候选推荐资源展示给用户;根据用户标签向量和资源标签向量,计算用户兴趣与资源相似度,通过以标签向量表示的用户与资源的相似度来表示用户u对资源i兴趣度大小,计算用户u对资源i的兴趣度Q(u,i):<mrow><mi>Q</mi><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mi>t</mi></msub><mo>&Element;</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>-</mo><msub><mover><mi>r</mi><mo>&OverBar;</mo></mover><mi>u</mi></msub><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>-</mo><msub><mover><mi>r</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><msqrt><mrow><msub><mi>&Sigma;</mi><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub></mrow></msub><msup><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>-</mo><msub><mover><mi>r</mi><mo>&OverBar;</mo></mover><mi>u</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><msqrt><mrow><msub><mi>&Sigma;</mi><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub></mrow></msub><msup><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>-</mo><msub><mover><mi>r</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>其中,ru,t分别表示用户u对标签t的兴趣度和平均兴趣度,ri,t分别为标签t对资源i的表示程度和平均表示程度,Tu,i为用户u和资源i共同拥有的标签集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江经贸职业技术学院;浙江金大科技有限公司,未经浙江经贸职业技术学院;浙江金大科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510328864.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top