[发明专利]一种文档主题的在线追踪方法有效
申请号: | 201310223574.0 | 申请日: | 2013-07-25 |
公开(公告)号: | CN103345474B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 龚声蓉;刘纯平;叶芸;季怡;王朝晖 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康盛知识产权代理有限公司11331 | 代理人: | 伊美年 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 主题 在线 追踪 方法 | ||
技术领域
本发明属于计算机领域,具体涉及一种文档主题的在线追踪方法。
背景技术
随着信息技术的快速发展和学术研究的蓬勃发展,我们所能获取的学术论文也在不断地增长。而如何从海量的数据中获取有效信息,这就需要进行主题追踪。例如,若想获取近年来关于贝叶斯网络的研究进展,我们首先可以针对贝叶斯网络这一主题搜索相关的论文;其次,可以对所获取论文的主要作者及其同实验室研究者所发表的论文进行追踪,进而可以全面地了解贝叶斯网络的研究过程。目前,大部分的主题追踪都采用离线算法,而离线算法相当于在生产过程中,把一个产品的各个零部件凑齐后再进行组装,而这在训练海量数据时就会面临内存不足和数据集不能完整获取的问题。因此,如果可以动态追踪主题,并实时给出当前最热冷门主题,将会给搜索引擎提供更准确的搜索。上述的这个例子属于机器学习中的概念,而完成这项工作的基础即为在线主题追踪技术。
在线消息传递算法是从马尔科夫模型的角度将传统的概率图表示转化成因子图,具备概念清晰,速度快,精度高等优点。目前在众多领域都已经提出了在线学习算法。机器学习和统计学领域的很多问题都涉及到矩阵运算,如:近邻算法和聚类算法中的K均值算法等,而目前的研究大多是在不高效而且没有理论保证的离线算法基础上,所以Shwartz等提出采用在线学习算法处理大规模矩阵;在训练数据集能提前获取的情况下,基于核函数的算法,如:支持向量机(support vector machine,SVM)算法,已有相应的文献提出其在处理各种问题上都已经取得了很大的成就,但是这些算法几乎无法应用到实时数据中,所以Kivinen等基于SVM的核函数提出在线学习算法;尽管统计学习在近年来取得了很大的成功,但是高维输入数据的非线性函数逼近仍然是个棘手的问题,特别是在增长式和实时的情形下局部加权投影回归(Locally weighted projection regression,LWPR)在高维冗余和不相关的输入维数空间中,Vijayakumar等提出一种新的增量非线性函数逼近算 法,即在线非线性函数逼近算法处理高维数据集;采用学习好的分类器进行目标检测已经成功地应用到了很多困难的任务中,如:人脸和行人检测,使用这种方法的系统通常在学习分类器时是采用离线学习算法为训练数据手动贴上标签,Pham等提出一种在线学习框架并且自动为视频中运动物体贴标签,因为在线学习的过程中没有手动的帮助,这样也能同步进行检测和自适应分类,Mairal等也提出一种提高分类器的目标检测准确性的在线学习算法;稀疏编码广泛应用于机器学习、神经科学、信号处理和统计学,有相应的文献对大规模矩阵分解、信号处理中的字典学习、非负矩阵分解和稀疏主成分分析等一系列的问题提出了一种新颖的基于随机近似的在线优化算法,扩展到数以百万计的大型训练样本,并自然延伸到各种矩阵因子分解,使其成为一种广泛适用的学习算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310223574.0/2.html,转载请声明来源钻瓜专利网。