[发明专利]一种网页学术报告信息抽取方法和系统有效
申请号: | 201710174575.9 | 申请日: | 2017-03-22 |
公开(公告)号: | CN107122403B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 赵姝;谭世成;陈洁;陈喜;唐杰;张燕平 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/957 |
代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 刘勇;金宇平 |
地址: | 230000*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 学术报告 信息 抽取 方法 系统 | ||
本发明公开了一种网页学术报告信息抽取方法和系统,包括:将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容;当属性出现重复,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中,并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中;获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
技术领域
本发明涉及文本信息提取技术领域,尤其涉及一种网页学术报告信息抽取方法和系统。
背景技术
随着互联网时代的高速发展,越来越多的的信息发布在网上。而信息的展现形式却是参差不齐的,因此越来越需要一种技术可以将大量优质的信息从互联网的各个角落集中的、规范的挖掘给用户,来提高用户的消费质量。
网页学术报告信息是科研工作者重要的信息获取、交流方式之一,它可以帮组科研工作者快速的发现哪里有和自己研究方向相关联的学术报告,从而参加并进行学术交流、提高学术水平。目前网页学术报告信息在每个研究所、高校等机构都是存在的,但是机构太过分散,每个机构的学术网页网址也都很难查找,而且学术信息的展现形式的混乱导致让用户很难快速的查找和发现与自己相关的学术报告,所以如何快速在大量混乱的机构、网页中找到自己所需要的报告是一个问题。因此能将分散的、格式混乱的学术报告集中、规范的展现给科研工作者是一个非常有价值的工作。
由于网页信息的高度复杂性和高度自然语言化,现有的、配合html标记的规则化关键字匹配方法工作方式单一,可扩展性很低,面对稍有变化的网页就需要大量的重写操作,而且没有考虑到html标记以外的标记内容,最小粒度依赖于DOM树节点的分类,但同一节点中很容易包含不同的内容。现有的基于文档树的机器学习方式针对整体的分类任务和节点类别判断较好,但是针对更精细的、文档树参考价值低的、特征过于宽泛复杂的内容效果还不够,尤其未考虑到内容之间序的关系。
发明内容
基于背景技术存在的技术问题,本发明提出了一种网页学术报告信息抽取方法和系统。
本发明提出的一种网页学术报告信息抽取方法,包括:
S1、将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;
S2、删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;
S3、获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;
S4、判断步骤S3中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中;
S5、获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
优选地,步骤S1,具体包括:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;
优选地,在步骤S1中,所述固定表示标记代表的标记类别是唯一的。
优选地,在步骤S2中,所述黑名单为一组模糊匹配方法的集合,黑名单包括所有属性适用黑名单和单一属性适用黑名单,其中,所述属性为目标学术报告中一段内容的类别特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710174575.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置