[发明专利]兴趣标签生成方法有效
申请号: | 201510570410.4 | 申请日: | 2015-09-09 |
公开(公告)号: | CN105069172B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 刘红岩;何军;杜小勇;何威 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 宋扬;黄健 |
地址: | 100872 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 兴趣 标签 生成 方法 | ||
本发明提供一种兴趣标签生成方法,该方法包括:构建实体与用户之间的二部图,为实体确定初始标签集,根据实体的初始标签集及实体与用户之间的兴趣行为数据,确定实体对用户的兴趣的影响权重,然后采用双向约束主题模型,模拟生成用户感兴趣的实体构成的实体集并为用户生成兴趣标签。该为用户生成兴趣标签的过程中,未涉及用户发布的文本信息,因此可以解决由于用户的文本信息疏松无法准确描述用户的兴趣,根据用户发布的文本信息无法准确为用户生成兴趣标签的问题。
技术领域
本发明涉及互联网技术,尤其涉及一种兴趣标签生成方法。
背景技术
随着互联网技术的不断发展,越来越多的用户通过互联网进行相关活动,如浏览新闻、购物等。随着互联网信息的不断增多,用户关注的内容随着增多。为帮助用户关注其感兴趣的内容,很多互联网中增加了兴趣标签,服务器根据用户的兴趣标签向用户推荐相应的内容。其中,兴趣标签是用来描述用户兴趣的词语。
目前,服务器通过分析用户发布的文本信息,将文本信息中出现频率较高的词语作为用户的兴趣标签。其中,文本信息例如为用户发布的博客,转发、收藏、点赞的博客等。
然而,用户有时会发布与其兴趣无关的文本信息,或者用户发布的文本信息比较少,使得文本信息稀疏且噪音多。此时,根据用户发布的文本信息生成的兴趣标签无法准确描述用户的兴趣,进而导致服务器根据该兴趣标签为用户推荐的信息不适合该用户。
发明内容
本发明提供一种兴趣标签生成方法,以实现准确生成用户的兴趣标签的目的。
第一个方面,本发明实施例提供一种兴趣标签生成方法,包括:
服务器构建用户与实体之间的二部图,所述用户为需要生成兴趣标签的用户,所述实体为能为所述用户提供兴趣行为的用户,所述二部图包括有向边,所述有向边指示所述用户与所述实体之间的兴趣行为数据;
所述服务器确定所述实体的初始标签集;
所述服务器根据所述实体的初始标签集与所述兴趣行为数据,确定所述实体对所述用户的兴趣的影响权重;
所述服务器根据所述二部图、所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签。
在第一个方面的第一种可能的实现方式中,所述服务器根据所述二部图与所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签,包括:
所述服务器确定所述用户的候选标签集,所述候选标签集为N个实体的初始标签集的并集,所述N个实体为所述二部图中,与所述用户发生兴趣行为的所述有向边对应的实体,N≥1;
所述服务器将所述N个实体形成的集合作为所述用户的实体集,根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,为所述用户生成兴趣标签。
结合第一个方面的第一种可能的实现方式,在第一个方面的第二种可能的实现方式中,所述根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,包括:
所述服务器根据所述影响权重与所述用户的主题分布θ,从所述主题分布θ中随机选取一个主题tk,所述主题分布θ为用于限定所述用户的候选标签集的多项概率分布;
所述服务器针对所述主题tk,根据所述影响权重与所述主题tk的实体分布从所述实体分布中随机选取一个实体,作为所述实体集中的一个实体,所述实体分布为用于限定使得所述选取的实体满足特定条件的多项概率分布,所述特定条件为所述选取的实体的初始标签集包含所述主题tk。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510570410.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实验数据采集分析系统及方法
- 下一篇:数据增量抽取转换与分发系统及方法