[发明专利]兴趣标签生成方法有效
申请号: | 201510570410.4 | 申请日: | 2015-09-09 |
公开(公告)号: | CN105069172B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 刘红岩;何军;杜小勇;何威 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 宋扬;黄健 |
地址: | 100872 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 兴趣 标签 生成 方法 | ||
1.一种兴趣标签生成方法,其特征在于,包括:
服务器构建用户与实体之间的二部图,所述用户为需要生成兴趣标签的用户,所述实体为能为所述用户提供兴趣行为的用户,所述二部图包括有向边,所述有向边指示所述用户与所述实体之间的兴趣行为数据;
所述服务器确定所述实体的初始标签集;
所述服务器根据所述实体的初始标签集与所述兴趣行为数据,确定所述实体对所述用户的兴趣的影响权重;
所述服务器根据所述二部图、所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签;
所述服务器根据所述二部图与所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签,包括:
所述服务器确定所述用户的候选标签集,所述候选标签集为N个实体的初始标签集的并集,所述N个实体为所述二部图中,与所述用户发生兴趣行为的所述有向边对应的实体,N≥1;
所述服务器将所述N个实体形成的集合作为所述用户的实体集,根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,为所述用户生成兴趣标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,包括:
所述服务器根据所述影响权重与所述用户的主题分布θ,从所述主题分布θ中随机选取一个主题tk,所述主题分布θ为用于限定所述用户的候选标签集的多项概率分布;
所述服务器针对所述主题tk,根据所述影响权重与所述主题tk的实体分布从所述实体分布中随机选取一个实体,作为所述实体集中的一个实体,所述实体分布为用于限定使得所述选取的实体满足特定条件的多项概率分布,所述特定条件为所述选取的实体的初始标签集包含所述主题tk。
3.根据权利要求2所述的方法,其特征在于,所述双向约束主体模型下,所述实体集对应一个文档,所述实体集中的每一个实体对应所述文档中的一个词,所述文档的主题限定为所述用户的候选标签集,所述主题的词分布限定为满足所述特定条件的词的分布。
4.根据权利要求2或3所述的方法,其特征在于,所述为用户生成兴趣标签,包括:
所述服务器根据所述双向约束主体模型、所述实体对所述用户的兴趣的影响权重,采用吉布斯采用求取所述主体分布θ;
所述服务器将所述主题分布θ中,高于阈值的主题对应的标签作为所述用户的兴趣标签。
5.根据权利要求1~3任一项所述的方法,其特征在于,所述服务器根据所述初始标签集与所述兴趣行为数据,确定所述实体对所述用户的兴趣的影响权重,包括:
所述服务器确定第一权重FV、第二权重TV与第三权重RTuv,所述第一权重FV为根据与所述实体发生兴趣行为的用户数确定出的权重,所述第二权重TV为根据所述实体的初始标签集确定出的权重,所述第三权重RTuv为根据所述用户转发所述实体的文本信息的次数确定出的权重;
所述服务器根据所述第一权重FV、所述第二权重TV与所述第三权重RTuv,确定所述影响权重wuv,wuv=λf×Fv+λt×Tv+λrtRTuv,其中,λf为所述第一权重FV的预设权重,所述λt为所述第二权重TV的预设权重,所述λrt为所述第三权重RTuv的预设权重,且λf+λt+λrt=1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510570410.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实验数据采集分析系统及方法
- 下一篇:数据增量抽取转换与分发系统及方法