[发明专利]一种基于LDA的学术资源获取方法在审
申请号: | 201611128684.9 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106777043A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 刘柏嵩;费晨杰;王洋洋;尹丽玲;高元 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 宁波奥圣专利代理事务所(普通合伙)33226 | 代理人: | 程晓明 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供一种基于LDA的学术资源获取方法,使用主题爬虫,同时使用LDA主题模型,先提供训练语料库供LDA主题模型训练得到主题文档,主题爬虫在普通网络爬虫的基础上进一步包括主题确定模块、相似度计算模块、URL优先级排序模块;主题爬虫爬行过程中,用主题文档指导主题相似度的计算,选取主题相似度大于设定阈值的URL,由主题爬虫维护一个未访问网页的URL队列,主题爬虫按URL队列的排列顺序先后不断地访问各URL的网页,爬取相应学术资源,并不断地将所爬取的学术资源分类标签后存入数据库,直至未访问队列URL为空;并提供学术资源数据库开放的API供展示调用;将机器学习融入到学术资源的获取方法中,提高学术资源获取的质量和效率。 | ||
搜索关键词: | 一种 基于 lda 学术 资源 获取 方法 | ||
【主权项】:
一种基于LDA的学术资源获取方法,所述学术资源为公布在互联网上的电子文献,使用由电脑运行的主题爬虫,实现从互联网上获取归属于目标学术主题的电子文献,其特征在于,同时使用由电脑运行的LDA主题模型,为所述LDA主题模型配置一个语料库,语料库的语料供所述LDA主题模型训练使用,通过LDA主题模型计算得到主题爬虫本次爬行的主题文档,主题文档为主题关联词的集合;所述主题爬虫在普通网络爬虫的基础上进一步包括主题确定模块、相似度计算模块、URL优先级排序模块;主题爬虫爬行过程中,主题爬虫的主题确定模块确定目标主题及其主题文档,用所述主题文档指导主题相似度的计算,相似度计算模块对所爬取的页面上每个锚文本并结合该页面内容进行主题相似度计算及判断,剔除锚文本结合该页面的主题相似度小于设定阈值的超链接,选取锚文本结合该页面的主题相似度大于设定阈值的URL,由主题爬虫维护一个由已访问网页的超链接所指的未访问网页的URL队列,该URL队列根据相似度高低降序排列,主题爬虫按URL队列的排列顺序先后不断地访问各URL的网页,爬取相应学术资源,并不断地将所爬取的学术资源分类标签后存入数据库,针对本次爬行的主题文档,直至未访问队列URL为空;并提供学术资源数据库开放的API供展示调用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611128684.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种条目提取方法和装置
- 下一篇:图片推送方法及装置