[发明专利]一种电价政策文档采集方法及其系统在审
申请号: | 202110323187.9 | 申请日: | 2021-03-26 |
公开(公告)号: | CN113065050A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 郑福康;陈正飞;王嘉豪 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06K9/20;G06F40/279;G06F16/35 |
代理公司: | 深圳汇智容达专利商标事务所(普通合伙) 44238 | 代理人: | 熊贤卿 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电价 政策 文档 采集 方法 及其 系统 | ||
本发明公开了一种基于网络爬虫的电价政策文档采集方法与系统,涉及电力价格政策文本处理技术领域。本发明构建了电价政策数据库,采用网络爬虫的方式定时采集相关政策网站上的电价政策,省去工作人员网页查询的环节;采用领域文本判定的方式对采集到的政策文本进行分类,此后在领域文本判定的基础上,进行采用自然语言处理技术抽取相关知识,存入数据库,方便工作人员检索方便。
技术领域
本发明涉及数据采集技术领域,具体涉及一种电价政策文档采集方法及其系统。
背景技术
加强电价管理是供电企业实现销售收入,提高盈利水平的重要保证。认真执行国家电价政策、法规,规范电价管理秩序,对保证国家产业政策调控,节约能源,维护供用电双方的经济利益有着重要意义。随着营销自动化在全国范围的顺利运行,对规范用电营销业务和电价管理起到了重要作用。从目前我国营销自动化运行过程中发现,在电价管理上存在着一定的漏洞和问题,有必要加以完善和改进。其中,电价政策直接影响着整个电力能源行业的发展,目前储能在用户侧的盈利模式仍以峰谷电价套利为主,峰谷电价的变化也牵动着储能的脉象。电价在电力营销中扮演着非常重要角色,如果不能掌握好电价,就会影响电量的使用情况,电量使用又会给电力企业发展带来一定的影响,循环往复的发展,便会使电力企业出现瘫痪。因此,需要及时地获知电价政策,以便于制定合理的电力营销策略,促进电力企业发展。
发明内容
本发明所要解决的技术问题在于,提供一种电价政策文档采集方法及其系统,可以通过自动采集电价政策文档,并进行分类处理,自动化高。
为解决上述技术问题,作为本发明的一方面,提供了一种电价政策文档采集方法,其包括以下步骤:
步骤S1,输入电价政策发布网站的采集网址URL(Uniform Resource Locator,统一资源定位器),并输入爬取关键词;
步骤S2,采用爬虫技术爬取所述网站发布的与所述爬取关键词相对应的信息;
步骤S3,将本地电价政策文件导入到系统中;
步骤S4,对所述爬取的信息进行文本预处理,所述预处理至少包括:去除文本错误、文字识别中的乱码、回车符、空格符号、重复数据中至少一种;
步骤S5,采用深度学习技术和关键词规则相结合的方式对所述进行预处理后的文本进行分类,所述分类类型包括通知、函、批示;
步骤S6,采用自然语言处理技术和模板匹配技术相结合的方式对所述分类后的文本进行信息提取,所述信息提取的内容包括标题、时间、发布单位、电价信息、发布时间、接收单位、主题关键词,其内容涉及时间、附件信息,涉及领域、依据政策;
步骤S7,将提取出的信息存入数据库,以供查询、检索以及后续使用。
优选地,所述步骤S2进一步包括:
步骤S21,下载待抓取队列,把待抓取队列中的URL作为待抓取的URL种子集合,采用增量式网络爬虫下载所述URL对应的网页,并把所下载的网页保存在HDFS(Hadoop分布式文件系统)中;
步骤S22,采用HTML解析已下载网页,提取链出链接,并将所述链出链接保存在HDFS中;
步骤S23,对已提取的链出链接进行优化,过滤掉重复链接,将优化好的URL存放在HDFS中,剩下未抓取的URL交给HDFS中的下一层处理;
步骤S24,将HDFS中每一层抓取的网页进行合并,去掉层与层之间可能重复的网页;
步骤S25,将HDFS中抓取的原始网页HTML(超文本标记语言)进行数据解析,转化为XML(可扩展标记语言)格式。
优选地,所述步骤S3进一步包括:
步骤S31:加载待解析本地文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110323187.9/2.html,转载请声明来源钻瓜专利网。