[发明专利]一种基于LDA的学术资源获取方法在审
申请号: | 201611128684.9 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106777043A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 刘柏嵩;费晨杰;王洋洋;尹丽玲;高元 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 宁波奥圣专利代理事务所(普通合伙)33226 | 代理人: | 程晓明 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 学术 资源 获取 方法 | ||
技术领域
本发明涉及机器学习、信息检索和web网页数据挖掘,尤其涉及一种基于LDA的学术资源获取方法。
背景技术
随着学术资源的电子化,从海量的学术资源中发现和挖掘研究者感兴趣领域的学术资源渐渐成为一个研究的热点。为了适应数字化的学术资源海量、多源异构的的特点,区别于传统基于关键字词频的主题发现方法如共词分析、引文分析等,一些基于机器学习和数据挖掘的新方法和模型不断被应用到学术资源分类领域,比较典型的如潜在狄利克雷分配模型(latent Dirichlet allocation,LDA)、社会网络分析(SNA)等,实践发现这方法在学术资源主题发现方面取得了良好的效果。
网络爬虫是按照一定的规则,自动地抓取互联网信息的程序或者脚本。主题爬虫:是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。主题是指某个定义好的专业领域或者兴趣领域,例如航天航空,生物医学,信息技术等,具体指一系列相关的词所组成的集合。
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。LDA主题模型是自然语言处理中主题挖掘的典型模型,可以从文本语料中抽取潜在的主题,提供一个量化研究主题的方法,已经被广泛的应用到学术资源的主题发现中,如研究热点挖掘、研究主题演化、研究趋势预测等,从而设计成基于LDA主题模型的网页主题爬虫。从LDA目前应用的情况来看,目前各种获取数字化学术资源(期刊论文、专利、硕博论文)的现有技术手段均存在一定局限性。
学术研究、技术开发需要获取现有学术资源、技术信息,一般都是由各学术研究团队或技术开发团队的相关人员各自搜取,大量的重复搜取现象严重,搜取工作往往占用相关人员的大量时间精力。随着互联网的快速发展,网页数量快速增长,但由于计算资源、网络工具资源和存储资源的有限,传统搜索技术已经很难覆盖大众用户的不同需求了。因此,智能化、个性化、领域化的搜索引擎技术应运而生,垂直搜索引擎的研究成为了时下的热点研究方向。在搭建垂直搜索引擎之前,最重要的环节是如何利用主题爬虫从浩瀚的互联网中抓取到相关主题领域的信息内容,获取目标主题领域准确而全面的学术资源信息。互联网信息是在快速更新的,各学科也不断出现新名词、新概念、新思想;如何使主题爬虫具有自学习功能,以适应互联网信息的快速更新呢。
对文献信息服务机构来说,如大学的图书馆、科技情报站等,获取网上文献信息为相关人员推送对应专业相关的资源成为重要工作。目前利用基于LDA的主题爬虫获取资源的方法,都是针对某个学术研究团队或技术开发团队的需求,设计的主题爬虫被定义只对某个学术领域或技术领域,或者说针对单一主题进行抓取。在主题爬虫一次爬行的时间段内只能提供单一领域或者说单一主题的学术或技术资源。那么,如何使主题爬虫一次爬行同时获取多个学术领域或技术领域或者说多个主题的学术或技术资源,以同时为多个学术研究团队或技术开发团队提供各自所需的学术或技术资源,同时又能保证学术或技术资源的对应性与资源范围广度满足多个学术研究团队或技术开发团队提供各自所需。
本发明正是为了解决上述技术问题。
发明内容
本发明所要解决的技术问题是针对上述技术现状,提供一种基于LDA的学术资源获取方法。本发明针对现有技术存在的不足,在学术资源获取方法方面提出基于LDA的学术资源主题爬虫,爬虫主题相似度计算采用VSM和SSRM相结合的方法,以更精准有效地在海量学术资源中获取科研用户最感兴趣主题的相关资料。
本发明解决上述技术问题所采用的技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611128684.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种条目提取方法和装置
- 下一篇:图片推送方法及装置