[发明专利]支持用户策略配置的基于Web网络的非结构化文本获取方法有效
申请号: | 201811483053.8 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109597928B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 张新阳;李辉;保富 | 申请(专利权)人: | 云南电网有限责任公司信息中心 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 650041*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 用户 策略 配置 基于 web 网络 结构 文本 获取 方法 | ||
一种支持用户策略配置的基于Web网络的非结构化文本获取方法,包括文本采集器存储初始化步骤,文本采集器种子地址初始化步骤,文本采集器页面资源获取步骤,页面分析与存储步骤,页面文本内容层次聚类步骤,文本数据聚类情况反馈步骤,实时/准实时用户策略配置步骤,文本采集器响应用户反馈步骤。本发明能够对已爬取的资源的评估来动态地调整Web网络文本采集系统即网络爬虫的选择策略,实现在一个特定的组织内更好与更高效的文本数据采集与高质量的文本数据资源池的构建,实现在很短的时期内即可将具有丰富特征的文本数据建立起信息资源池,提高爬虫效率,节省信息采集的周期。
技术领域
本申请涉及一种信息采集与获取方法,具体的,涉及一种支持用户实时/准实时地进行策略配置的基于Web网络的非结构化文本获取方法。该方法可以用于电力行业非结构化文本数据的获取与汇聚,为非结构化文本数据的统一管理奠定基础,应用于组织内部的信息资源统一管理与知识管理等场景。
背景技术
非结构化文本数据是一个组织内部极为重要的信息资源,有效管理信息资源,实现信息资源的快速检索、分析挖掘,可以为日常的办公、管理、协调、监督、决策等活动提供数据和信息支撑,降低日常运营成本,积累形成组织内部包括显式知识与隐式知识的知识库,深化组织的信息储备,为组织的成长、发展构建知识基础。
非结构化文本的采集、处理、分析、存储、管理、查询、表达、应用与结构化数据有着相当差异。结构化数据由于类型明确、长度固定,同时表达与处理的理论与方法较为成熟,通常采用关系模型进行表达和存储,因此相对而言技术方案较为统一。结构化数据的采集与获取通常使用ETL工具进行数据的转换与处理以达成。非结构化文本数据的采集与获取相对而言更为复杂。首先在于文本数据的通常形式为非数字形式,即以印刷品、出版物与打印件的形式存在,通常需要人工输入或OCR等技术将上述内容转化为数字形式,这些技术都需要耗费大量的人力成本。即使文本数据以数字化的文件格式存在,将散布在一个组织内部多台工作终端与计算设备内的文本相关格式的文件进行采集汇总也是较为繁重、复杂的工作。总体而方,非数字化的文本与文件格式保存的文本数据采集与获取的成本较为高昂。
自Web网络成为信息发布与信息获取的主要渠道以来,Web应用逐渐取代单机模式或客户机/服务器模式的应用软件成为一个组织内部开展日常工作的应用软件的主要形式,同时文本数据也大多以网页文本的形式呈现。利用Web网络进行文本数据的采集具有灵活方便、成本较低、采集速度快等特点,因而该方法成为文本数据采集的重要技术之一。
基于Web网络的文本数据采集通常以网络爬虫作为技术手段实现自动化信息采集,网络爬虫程序的实现包括数据提取规则的制定、无效链接的识别、重复链接的删除以及爬虫的增量采集等。网络爬虫程序按照某一特定的算法主动采集网页内容的脚本或程序,它可以自动并且快速地采集所有能够访问到的网页,以便获得这些网站的数据资源,并配合下载器的使用,将数据资源保存到指定的存储系统中。网络爬虫根据功能用途和实现技术一般分为两种:通用爬虫和主题爬虫。通用爬虫的采集策略是尽可能多的采集网页,对网页内容并没有过多的限制,因此通用网络爬虫所捕获的目标网页是巨大的,采集范围是非常广泛的,对硬件和软件的性能要求相对较高,它被广泛应用于通用搜索引擎中。主题爬虫的采集策略是丢弃与采集目标无关的网页,尽可能抓取与收集目标相关的网页,它的优势是:爬虫执行效率较高、使用较少的内存空间以及拥有较高的搜索准确率,它被广泛应用于垂直搜索引擎中。
Web网络爬虫存在策略配置不够灵活,且策略配置无法根据已收集的数据的特性进行灵活调整的缺陷。无论是通用爬虫还是主题爬虫,其初始采集策略一旦配置完成,爬虫在整个采集过程中即根据此策略进行数据采集,然而实际的数据采集过程中往往需要根据用户的需求以及已采集数据的特性来调整爬虫的采集策略,即将整个Web 网络的访问过程作为一个带有用户评估已爬取的数据特性同时进行策略调整的具有反馈机制的闭环。
如何对诸如网络爬虫的Web网络文本采集系统的策略进行动态的调整,,实现在一个特定的组织内更好与更高效的文本数据采集与高质量的文本数据资源池的构建,成为现有技术亟需解决的技术问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司信息中心,未经云南电网有限责任公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811483053.8/2.html,转载请声明来源钻瓜专利网。