[发明专利]一种电价政策文档采集方法及其系统在审
申请号: | 202110323187.9 | 申请日: | 2021-03-26 |
公开(公告)号: | CN113065050A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 郑福康;陈正飞;王嘉豪 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06K9/20;G06F40/279;G06F16/35 |
代理公司: | 深圳汇智容达专利商标事务所(普通合伙) 44238 | 代理人: | 熊贤卿 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电价 政策 文档 采集 方法 及其 系统 | ||
1.一种电价政策文档采集方法,其特征在于,包括以下步骤:
步骤S1,输入电价政策发布网站的采集网址URL,并输入爬取关键词;
步骤S2,采用爬虫技术爬取所述网站发布的与所述爬取关键词相对应的信息;
步骤S3,导入本地电价政策文件;
步骤S4,对所述爬取的信息进行文本预处理,所述预处理至少包括:去除文本错误、文字识别中的乱码、回车符、空格符号、重复数据中至少一种;
步骤S5,采用深度学习技术和关键词规则相结合的方式对所述进行预处理后的文本进行分类,所述分类类型包括通知、函、批示;
步骤S6,采用自然语言处理技术和模板匹配技术相结合的方式对所述分类后的文本进行信息提取,所述信息提取的内容包括标题、时间、发布单位、电价信息、发布时间、接收单位、主题关键词,其内容涉及时间、附件信息,涉及领域、依据政策;
步骤S7,将提取出的信息存入数据库。
2.如权利要求1所述的方法,其特征在于,所述步骤S2进一步包括:
步骤S21,下载待抓取队列,把待抓取队列中的采集网址URL作为待抓取的URL种子集合,采用增量式网络爬虫下载所述URL对应的网页,并把所下载的网页保存在HDFS中;
步骤S22,采用HTML解析已下载网页,提取链出链接,并将所述链出链接保存在HDFS中;
步骤S23,对已提取的链出链接进行优化,过滤掉重复链接,将优化好的URL存放在HDFS中,剩下未抓取的URL交给HDFS中的下一层处理;
步骤S24,将HDFS中每一层抓取的网页进行合并,去掉层与层之间可能重复的网页;
步骤S25,将HDFS中抓取的原始网页HTML进行数据解析,转化为XML格式。
3.如权利要求2所述的方法,其特征在于,所述步骤S3进一步包括:
步骤S31:加载待解析本地文件;
步骤S32:根据文件后缀名启动PDF读取程序以及OCR读取程序;
步骤S33:解析文本内容;
步骤S34:返回文本内容。
4.如权利要求3所述的方法,其特征在于,所述步骤S4进一步包括:
步骤S41:去除本批处理文件中重读的文件;
步骤S42:去除网页爬取中网页解析错误带来的编码乱码;
步骤S43:去除文本中的OCR出现的乱码;
步骤S44:去除多余的回车符,空格符号;
步骤S45:返回处理后的文本。
5.如权利要求4所述的方法,其特征在于,所述步骤S5进一步包括:
步骤S51:构建文本分类数据集;
步骤S52:训练fasttext文本模型;
步骤S53:采用关键词进行匹配分类类型,所述分类类型包括:通知、函、批示;
步骤S54:采用fasttext文本模型进行预测,并对风电、煤电、新能源主题进行分类。
6.如权利要求5所述的方法,其特征在于,在所述步骤S5中进一步包括:
根据所述文本中的关键字检索预先设置的分类类型的标签,如果找不到,则丢弃本条文本。
7.如权利要求6所述的方法,其特征在于,所述步骤S6进一步包括:
步骤S61,根据文本分类结果设计不同的信息提取模板,所述模型包括:通知信息提取模板、函信息提取模板、批示信息提取模板或报告信息提取模板;
步骤S62,采用模板对文本进行关键信息提取,提取内容包括:标题、时间、发布单位,发布时间、接收单位以及附件信息;
步骤S63,采用主题抽取模型LDA抽取关键词信息;
步骤S64,采用实体抽取算法抽取组织和时间信息;
步骤S65,返回相关信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110323187.9/1.html,转载请声明来源钻瓜专利网。