[发明专利]一种基于LDA的学术资源获取方法在审
申请号: | 201611128684.9 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106777043A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 刘柏嵩;费晨杰;王洋洋;尹丽玲;高元 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 宁波奥圣专利代理事务所(普通合伙)33226 | 代理人: | 程晓明 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 学术 资源 获取 方法 | ||
1.一种基于LDA的学术资源获取方法,所述学术资源为公布在互联网上的电子文献,使用由电脑运行的主题爬虫,实现从互联网上获取归属于目标学术主题的电子文献,其特征在于,同时使用由电脑运行的LDA主题模型,为所述LDA主题模型配置一个语料库,语料库的语料供所述LDA主题模型训练使用,通过LDA主题模型计算得到主题爬虫本次爬行的主题文档,主题文档为主题关联词的集合;所述主题爬虫在普通网络爬虫的基础上进一步包括主题确定模块、相似度计算模块、URL优先级排序模块;主题爬虫爬行过程中,主题爬虫的主题确定模块确定目标主题及其主题文档,用所述主题文档指导主题相似度的计算,相似度计算模块对所爬取的页面上每个锚文本并结合该页面内容进行主题相似度计算及判断,剔除锚文本结合该页面的主题相似度小于设定阈值的超链接,选取锚文本结合该页面的主题相似度大于设定阈值的URL,由主题爬虫维护一个由已访问网页的超链接所指的未访问网页的URL队列,该URL队列根据相似度高低降序排列,主题爬虫按URL队列的排列顺序先后不断地访问各URL的网页,爬取相应学术资源,并不断地将所爬取的学术资源分类标签后存入数据库,针对本次爬行的主题文档,直至未访问队列URL为空;并提供学术资源数据库开放的API供展示调用。
2.如权利要求1所述的学术资源获取方法,将所述主题爬虫每次所爬取的学术资源作为LDA主题模型训练用的新的语料;不断重复如权利要求1所述的主题爬虫爬行过程;使得各主题文档的所集合的主题关联词不断得以补充更新,所爬取的学术资源不断得以补充更新,为目标学术主题所获取学术资源的查准率与查全率不断提升。
3.如权利要求1所述的学术资源获取方法,实现同时从互联网上为多个关注不同学术主题的学术资源需求者分别获取相关学术资源,其特征在于,所述学术主题为人为设定的多个学术主题,根据知识经验人为给定各学术主题该学术主题的关健词在互联网上的相关网站搜集其相关学术资源,以所搜集到的相关学术资源作为供所述LDA主题模型训练的初始语料库;所述主题爬虫为按学术主题数分布的多个分布式爬虫,每个分布式爬虫对应一个学术主题,各分布式爬虫同时获得多个学术主题的学术资源。
4.如权利要求1所述的学术资源获取方法,其特征在于,所述学术主题为经过LDA主题模型训练而成的涵盖所有学科的多个学术主题,根据对所有学术领域的分类细化程度的具体需要人为确定一个对所有学术领域的分类数,该分类数作为学术主题数,根据操作者的知识经验在互联网上的相关网站随机搜集足够数量的文本资源,作为供所述LDA主题模型训练的初始语料库,所述LDA主题模型训练后得到经LDA主题模型归类的涵盖所有学科的与所述学术主题数相对应的多个学术主题的主题文档,阅读各主题文档的关联词栏目,根据知识经验人为命名主题名;所述主题爬虫为按学术主题数分布的多个分布式爬虫,每个分布式爬虫对应一个学术主题,各分布式爬虫同时获得多个学术主题的学术资源。
5.如权利要求1至4任一项所述的学术资源获取方法,所述公布在互联网上的电子文献包括论文、期刊、新闻、专利文献,其特征在于,将学术资源的摘要作为训练语料库,通过LDA主题模型计算得到主题及主题文档,主题文档指导主题爬虫爬行过程中主题相似度的计算,后将爬取的内容分类标签后存储到数据库中,作为LDA训练模型新的语料,最后提供学术资源数据库开放的API供展示调用;具体步骤如下:
步骤一、下载并预处理现有的多个领域的学术资源的摘要,根据学术领域人为分成不同类别,分别作为LDA多个主题的训练语料;
步骤二、输入LDA主题模型参数,LDA主题模型参数包括K,α,β,其中K的值表示主题数,α的值表示各个主题在取样之前的权重分布,β的值表示各个主题对词的先验分布,训练得到多个主题更细分的主题及主题文档,每个主题文档用于指导一个爬虫;
步骤三、每个爬虫从选取的优质的种子URL开始,维护一个未访问网页的超链接队列,通过不断计算网页中的文本与网页中锚文本链接所指的文本与主题的相似度,根据相似度排序更新URL队列,并抓取与主题最相关的网页内容;
步骤四、主题爬虫获取的学术资源,打上对应主题标签后,存储到数据库中,并作为训练LDA的新语料,用于主题文档更新;
步骤五、提供学术资源数据库开放的API,供展示调用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611128684.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种条目提取方法和装置
- 下一篇:图片推送方法及装置