[发明专利]权威作者和高质量论文推荐系统和推荐方法有效
申请号: | 201310396249.4 | 申请日: | 2013-09-04 |
公开(公告)号: | CN103440329A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 卢美莲;高洁;王萌星;秦臻;刘智超 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 夏宪富 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 权威 作者 质量 论文 推荐 系统 方法 | ||
技术领域
本发明涉及一种权威作者和高质量论文推荐系统和方法,确切地说,涉及一种针对用户操作行为的权威作者和高质量论文的个性化推荐系统和推荐方法,属于数据挖掘和机器学习的技术领域。
背景技术
2003年,D.M.Blei等人提出潜在狄利克雷LDA(Latent Dirichlet Allocation)模型。LDA模型是在概率潜在语义分析PLSA(Probabilistic Latent Semantic Analysis)基础上,使用一个服从Dirichlet分布的K维隐含随机变量γ表示文本的主题概率分布,并模拟文本的生成过程。后来,有人对该模型中的η参数施加Dirichlet先验,使其服从Dirichlet分布,该参数为δk,其能够使得LDA模型成为一个完整的文本生成模型。这样,LDA主题模型及其扩展技术就被越来愈多地应用于文本挖掘和信息处理等领域。
LDA是一种非监督的机器学习技术,可用于识别大规模文本集或语料库中潜藏的主题信息。它是采用词袋的方法:将每篇文本视为一个词频向量,从而将文本信息转化为易于建模的数字信息。但是,词袋方法没有考虑词与词之间的顺序,这样虽然将问题的复杂性作了简化处理,同时也为改进模型提供了契机。因每篇文本代表一些主题所构成的一个概率分布,而每个主题又代表一些构成单词的另一个概率分布。由于Dirichlet分布随机向量中各分量间的弱相关性(即各分量之和必须为1),使得人们假想的潜在主题之间是几乎不相关的。
参见图1,介绍LDA对于语料库中的每篇文本所定义的生成过程如下:
(1)对于每篇文本,从其主题分布中抽取一个主题;
(2)从抽取的主题所对应的单词分布中抽取一个单词;
(3)重复上述两个步骤,直至遍历文本中的每个单词。
图1展示了LDA生成过程:其中的δk表示主题k中的词概率分布,θj表示第j篇文本的主题概率分布,即第j篇文本的主题特征向量。θj和δk又作为多项式分布的参数,分别用于生成主题和词。K代表主题的总数量,J代表文本的总数量,Bj表示第j篇文本的长度,gj,b和Zj,b分别表示第j篇文本中第b个词及该词所属的主题。γ和η是Dirichlet分布的参数,通常是固定值,且对称分布,因此用标量表示。θj,δk均服从Dirichlet分布。
图1所示的模型表示法被称作“盘子表示法”(plate notation)。图中的阴影圆圈表示可观测变量(observed variable),非阴影圆圈表示潜在变量(latent variable),箭头表示两变量间的条件依赖性(conditional dependency),方框表示重复抽样,重复抽样的次数在方框的右下角。该模型有两个参数需要推断:文本-主题分布θj和主题-词分布δk。通过对这两个参数的学习,可以获知文本作者感兴趣的主题,以及每篇文本所涵盖的主题比例等。推断方法主要有LDA模型作者提出的变分-EM算法,以及现在常用的Gibbs抽样法。
再介绍另一种用于Web网页结构挖掘中具有权威性并广泛应用的算法:超链引导的主题搜索HITS(Hyperlink Induced Topic Search)算法,该算法在现有的各种对网页进行链接分析、并提取分组的算法中,应用最广泛。它是利用Web的链接结构进行挖掘,也就是通过两个评价权值—权威度(Authority)和枢纽值(Hub)来评估网页质量;其基本思路是利用页面之间的引用链接挖掘隐含的有用信息(如权威性),其特点是计算简单、效率高。其中:
权威值的计算公式为:网页p的权威值
枢纽值的计算公式为:网页q的枢纽值其中,q属于所有指向网页p的网页集合,l属于网页p指向的所有网页的集合。
HITS算法认为:对每个网页都应分别考虑其内容权威度和链接权威度,应先评价网页的内容权威度,再评价页面的链接权威度,然后给出该页面的综合评价。内容权威度与网页自身直接提供的内容信息质量相关联,被更多网页所引用的网页,其内容的权威度更高。而链接权威度又与网页提供的超链接页面的质量相关联,引用越多的高质量页面网页,其链接权威度越高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310396249.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低碳钢的轧制工艺
- 下一篇:包括EET反馈的数据处理系统及方法