[发明专利]一种网络学术报告的关键字段自动提取方法有效
申请号: | 201611090385.0 | 申请日: | 2016-12-01 |
公开(公告)号: | CN106708964B | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 薛峰;许剑东;王健伟;夏帅;孙健;陈思洋 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/957 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学术报告 关键字段 网络爬虫 自动提取 结构化 网络 简介 站点 数据持久化 站点数据库 报告标题 报告内容 报告站点 处理网络 关键信息 内容抽取 预告信息 站点信息 有效地 封装 抽取 重复 | ||
本发明公开了一种网络学术报告预告信息的关键字段自动提取方法,其特征是包括:1、收集学术报告站点,构成学术报告站点数据库,用作网络爬虫的爬取种子;2、利用网络爬虫对每个报告站点进行报告爬取;3、对爬取的每个学术报告详细页进行内容抽取,抽取的内容包括报告标题,报告简介,报告人,报告人简介,报告举办时间,报告举办地点和报告举办单位,将这些内容进行封装和结构化;4、将结构化的报告内容进行数据持久化操作;5、重复以上所述步骤,直至收集的所有站点爬取完毕。本发明通过整理网络学术报告站点信息和处理网络学术报告内容中的HTML标签,从而能有效地提取出网络学术报告关键信息。
技术领域
本发明属于信息技术中的文本处理领域,主要涉及一种网络学术报告预告信息的关键字段自动提取方法。
背景技术
随着互联网技术的迅速发展,人类社会进入了信息时代,在庞大而复杂的互联网中隐藏了大量的学术报告信息。学术报告是针对规定的学科课题,为了更好地交流专业知识、学术成果、经验以及共同讨论分析解决问题的方法,有相关的研究者和学习者参加并进行探讨、论证和研究的学术活动。学术报告作为学术交流的重要组成部分,对科学技术的传播和发展起着巨大作用,也是培养人才的一种重要手段。
各高校和科研机构定期会发布一些学术报告预告,有些机构在其官网上专门开辟了一个学术报告模块用来发布学术报告预告。虽然在众多学术讲座中不乏优秀的学术报告,但是由于科研工作者无法也不可能逐一浏览各机构所发布的学术报告预告信息,因而会错过优秀的或其感兴趣的学术讲座。因此,对各高校和科研机构所发布的学术报告进行汇聚,方便科研工作者及时获取报告信息,具有实际的应用意义。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成部分。网络爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断地从当前页面上抽取出新的网页URL放入队列中,直到满足系统一定的停止条件。
目前,获得网络学术报告预告信息的方法主要可以分为两大类:1、人工收集;2、利用网络爬虫技术进行收集。利用人工对网络学术报告进行收集,该方法虽然简单,但是需要投入大量的人力和精力,不仅费时费力,而且也无法收集全网络学术报告,实用性差。在利用网络爬虫进行网络学术报告收集时,针对某一特定网络学术报告站点,虽然能够有效地抽取出网络学术报告的关键信息,但是对于其他的网络学术报告站点,并不一定通用。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于网络学术报告的关键字段自动提取方法,以期能提高网络学术报告关键信息抽取的准确性和通用性,从而能有效地抽取出网络学术报告的关键信息。
本发明为解决技术问题采用如下技术方案:
本发明一种网络学术报告的关键字段自动提取方法的特点是按如下步骤进行:
步骤1、收集学术报告站点的信息,构成学术报告站点数据库;
所述学术报告站点数据库中包括:各学术报告站点的起始URL、各站点的学术报告列表URL正则表达式、各站点的学术报告详细页URL正则表达式、各站点的报告内容所在HTML标签的组合选择器表达式CE以及各站点的报告标题所在HTML标签的组合选择器表达式TE;
步骤2、根据所述各学术报告站点的起始URL、各站点的学术报告列表URL正则表达式以及各站点的学术报告详细页URL正则表达式,利用网络爬虫爬取任意一个学术报告站点S,得到任意一个页面P并相应解析成DOM树格式;
步骤3、根据所述页面P利用网络爬虫得到相应的Jsoup Document对象D;
步骤4、根据所述组合选择器表达式CE和所述Jsoup Document对象D,利用网络爬虫获取所述组合选择器表达式CE所对应的HTML标签内的报告内容C;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611090385.0/2.html,转载请声明来源钻瓜专利网。