[发明专利]基于评分和标签构建用户群体模型的电子商务推荐方法在审

申请号：	201510328864.0	申请日：	2015-06-15
公开（公告）号：	CN104915861A	公开（公告）日：	2015-09-16
发明（设计）人：	郭飞鹏;谢红华;卢琦蓓;宋志序;刘东升;赵毅	申请（专利权）人：	浙江经贸职业技术学院;浙江金大科技有限公司
主分类号：	G06Q30/02	分类号：	G06Q30/02;G06F17/30
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵;黄美娟
地址：	310018 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及电子商务智能推荐领域，具体涉及一种基于评分和标签构建用户群体模型的电子商务推荐方法。特别是适用于用户和资源数量庞大，具有标签的群体用户的资源推荐，利用群体用户模型的特点可以缓解用户数据稀疏的问题，提高推荐质量。本发明结合标签和评分信息，通过用户特征分析建立用户的群体模型，然后基于用户的群体模型计算用户对资源的兴趣度，在用户评分的基础上提出了利用标签分析理解评分的内在含义的方法，克服了单纯利用评分信息量较少的问题，从而更加准确的把握用户的兴趣点，同时丰富了用户可用信息，有利于缓解评分稀疏性的问题，形成比较好的推荐结果。
搜索关键词：	基于评分标签构建用户群体模型电子商务推荐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于评分和标签构建用户群体模型的电子商务推荐方法，包括以下步骤：步骤1基于用户特征的用户群体构建；用户特征集UC，是用户个体u本身的多种特征集合，有年龄、性别、婚姻、教育、职业和地域，则定义用户特征集为，UC＝{Age,Gender,Marriage,Education,Occupation,Region…}；根据用户的特征数据集可以计算用户特征相似度，cl_i表示第i种特征的相似度；(1)年龄：用户u和v之间的年龄相似度计算方法如下，

<mrow><msub><mi>cl</mi><mn>1</mn></msub><mo>=</mo><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><mn>1</mn><mo>-</mo><mfrac><mrow><mo>|</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>-</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>10</mn></mfrac><mo>,</mo></mrow></mtd><mtd><mrow><mo>|</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>-</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo><mo>≤</mo><mn>10</mn></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mo>|</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>-</mo><mi>A</mi><mi>g</mi><mi>e</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo><mo>></mo><mn>10</mn></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>

(2)性别、婚姻：用1和0分别表示用户的性别为男或女，用1和0分别表示婚姻“是或否”；(3)教育背景：按高中以下、高中、本科、硕士、博士，分别记为{1,2,3,4,5}，cl₃具体计算如下，

<mrow><msub><mi>cl</mi><mn>3</mn></msub><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mo>|</mo><mi>E</mi><mi>d</mi><mi>u</mi><mi>c</mi><mi>a</mi><mi>t</mi><mi>i</mi><mi>o</mi><mi>n</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>-</mo><mi>E</mi><mi>d</mi><mi>u</mi><mi>c</mi><mi>a</mi><mi>t</mi><mi>i</mi><mi>o</mi><mi>n</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>4</mn></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>

(4)职业：按不同职业种类记为{0,1,2,…,n}；n表示职业的种类数；(5)地域：长期居住地相同并且居住地的行政区域单位越小则用户的相似度越高，cl₅具体计算方法为，若用户u与用户v的家庭所在地位于同一乡镇或街道则为1，位于相同县则为0.8，位于相同市则为0.6，位于相同省则为0.4，位于相同国家则为0.2，其余均为0；用户u和用户v的特征相似度可以定义为所有k个用户特征属性的平均相似度，计算公式如下，

<mrow><mi>s</mi><mi>i</mi><mi>m</mi><mi>u</mi><mi>s</mi><mi>e</mi><mi>r</mi><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msub><mi>w</mi><mi>i</mi></msub><mo>×</mo><msub><mi>cl</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>

其中，w_i表示第i个用户特征属性的权重；基于群体的用户建模通过联合群体内所有用户的标注行为建立用户模型，反映了具有相同用户特征的用户可能具有的兴趣偏好；步骤2用户标签初始权重计算；采用基于信息熵的方法来定义标签反映用户兴趣的初始权重，有助于体现用户的多兴趣性：d(t)＝log(f_u(t)/f_u+1) (6)其中，d(t)表示用户u对标签t的初始兴趣权重，f_u(t)表示用户u使用标签t进行标注的频数，f_u表示用户u使用标签总频数，d(t)∈[0,1]；步骤3标签关联权重计算；定义一个标签关联度来表示这种标签之间相关性；当用户通过一组标签共同标注一个资源时，则这一组标签之间有一定的语义相关性，用户的整个标签集合可以通过这种关系联系起来；

<mrow><mi>c</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>t</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><msub><mi>R</mi><mi>i</mi></msub><mo>∩</mo><msub><mi>R</mi><mi>j</mi></msub><mo>|</mo></mrow><mrow><mo>|</mo><msub><mi>R</mi><mi>i</mi></msub><mo>∪</mo><msub><mi>R</mi><mi>j</mi></msub><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>

其中，c(t_i,t_j)表示标签t_i，t_j之间的关联系数，R_i，R_j分别表示标签t_i，t_j所标注的资源的集合；用户的标签权重不仅与标签自身的频率有关，还与该标签相关联的其它标签的权重有关，将标签从其它标签获得的权重定义为关联性权重；标签t从其它标签获得的关联性权重p(t)为，

<mrow><mi>p</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munder><mo>Σ</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>T</mi><mi>u</mi></msub></mrow></munder><mi>c</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>

T_u为用户u使用的标签集合；d(t_i)表示用户u对标签t_i的初始兴趣权重；步骤4，最终用户标签权重计算；通过以上对用户标签的分析，得到最终的用户标签权重w_u(t)为：w_u(t)＝αd(t)+(1‑α)p(t) (9)其中α是训练参数，根据用户反馈进行调整；步骤5资源标签分析与计算；资源标签分析用标签权重w_i(t)来刻画各个标签对于资源的不同反映程度，对于同一个资源，用户使用相同的标签标注的次数越多，则这个标签越能反映用户对该资源的认知；借鉴TF*IDF公式，则标签t对资源i的权重w_i(t)为：

<mrow><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>T</mi><mi>F</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>*</mo><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mo>|</mo><mi>I</mi><mo>|</mo><mo>/</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><mn>0.01</mn><mo>)</mo></mrow></mrow><msqrt><mrow><munder><mo>Σ</mo><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mi>i</mi></msub></mrow></munder><msup><mrow><mo>(</mo><mi>T</mi><mi>F</mi><mo>(</mo><mi>i</mi><mo>,</mo><mi>t</mi><mo>)</mo><mo>*</mo><mn>1</mn><mi>o</mi><mi>g</mi><mo>(</mo><mo>|</mo><mi>I</mi><mo>|</mo><mo>/</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><mn>0.01</mn><mo>)</mo><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>

其中，TF(i,t)表示所有用户对资源i使用标签t进行标注的频率，|I|表示所有资源的个数，n_t表示使用标签t标注过的资源的个数，分母为归一化因子；由资源标签分析，将用户对资源的评分分散给每个对资源进行标注的标签，则用户u对资源i的评分分散给标签t的评分为：

<mrow><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mo>|</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>|</mo><mfrac><mrow><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>Σ</mi><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub></mrow></msub><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><msub><mi>R</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow>

其中，T_u,i为用户u对资源i使用的标签的集合，|T_u,i|为T_u,i中标签的个数，R_u,i为用户u对资源i的评分；用户u对标签t的兴趣度r_u,t为，

<mrow><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mfrac><mrow><munder><mo>Σ</mo><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mi>u</mi></msub></mrow></munder><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><msub><mi>w</mi><mi>u</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>f</mi><mi>u</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>

其中，f_u(t)表示用户u使用标签t对资源标注的频数，T_u为用户u使用的标签集合；标签t对资源i的表示程度r_i,t为，

<mrow><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mfrac><mrow><munder><mo>Σ</mo><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mi>i</mi></msub></mrow></munder><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub></mrow><mrow><mi>f</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>

其中，f_i(t)表示资源i被标签t标注的频数，T_i为所有对资源i标注的标签集合；步骤6，资源推荐；个性化推荐系统的最终目标是找到与用户兴趣度匹配最高的资源，由于标签是联系用户和资源的纽带，选择与目标用户具有共同标签的资源组成候选推荐资源集合，并通过计算用户与资源的相似度，按照一定的方式将候选推荐资源展示给用户；根据用户标签向量和资源标签向量，计算用户兴趣与资源相似度，通过以标签向量表示的用户与资源的相似度来表示用户u对资源i兴趣度大小，计算用户u对资源i的兴趣度Q(u，i)：

<mrow><mi>Q</mi><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>Σ</mi><mi>t</mi></msub><mo>&Element;</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>-</mo><msub><mover><mi>r</mi><mo>&OverBar;</mo></mover><mi>u</mi></msub><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>-</mo><msub><mover><mi>r</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><msqrt><mrow><msub><mi>Σ</mi><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub></mrow></msub><msup><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>-</mo><msub><mover><mi>r</mi><mo>&OverBar;</mo></mover><mi>u</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><msqrt><mrow><msub><mi>Σ</mi><mrow><mi>t</mi><mo>&Element;</mo><msub><mi>T</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub></mrow></msub><msup><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>-</mo><msub><mover><mi>r</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>

其中，r_u,t和分别表示用户u对标签t的兴趣度和平均兴趣度，r_i,t和分别为标签t对资源i的表示程度和平均表示程度，T_u,i为用户u和资源i共同拥有的标签集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江经贸职业技术学院;浙江金大科技有限公司，未经浙江经贸职业技术学院;浙江金大科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510328864.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q30-00 商业，例如购物或电子商务
G06Q30-02 .行销，例如，市场研究与分析、调查、促销、广告、买方剖析研究、客户管理或奖励；价格评估或确定
G06Q30-04 .签单或开发票
G06Q30-06 .购买、出售或租赁交易
G06Q30-08 ..拍卖

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于评分和标签构建用户群体模型的电子商务推荐方法在审

专利文献下载