[发明专利]一种新能源政策信息抽取方法及系统在审
申请号: | 201811427506.5 | 申请日: | 2018-11-27 |
公开(公告)号: | CN109766416A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 王晓蓉;王继业;朱朝阳;张东霞;刘凤魁;迟远英;刘长年;徐礼志 | 申请(专利权)人: | 中国电力科学研究院有限公司;国家电网有限公司;国网江苏省电力有限公司电力科学研究院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F17/27 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新能源 文本语句 特征词典 政策信息 分句 政策 标注 抽取 文本 标点符号 服务接口 关键信息 预先建立 自动识别 输出 统一 | ||
1.一种新能源政策信息抽取方法,其特征在于,所述方法包括:
将新能源政策处理为设定格式的新能源政策文本;
基于预先建立的新能源政策特征词典库,采用标点符号自动识别分句的方法对所述新能源政策文本进行分句层次划分与标注,输出划分与标注结果,生成文本语句库;
基于统一服务接口,根据所述文本语句生成新能源政策特征词典库和文本语句库的关键信息,并输出。
2.根据权利要求1所述的方法,其特征在于,所述新能源政策特征词典库的建立包括:
对收集的新能源政策进行预处理;
利用专家法,对预处理后的新能源政策文本的数据库进行抽样分析,生成用于存储基本特征词的新能源政策特征词典库。
3.根据权利要求1所述的方法,其特征在于,所述基于预先建立的新能源政策特征词典库,采用标点符号自动识别分句的方法对新能源政策文本进行分句层次划分与标注,输出划分与标注结果,生成文本语句库包括:
基于预先建立的新能源政策特征词典库,对新能源政策文本进行分词处理,生成文本分词库;
根据所述文本分词库的分词词频情况,更新新能源政策特征词典库;
基于更新的新能源政策特征词典库,建立文本语句库。
4.根据权利要求2所述的方法,其特征在于,所述对收集的新能源政策进行预处理包括:
采集新能源政策,根据预先定义的编码格式构建基于新能源政策的文本数据库,以及用于管理所述新能源政策相关信息的政策数据表;
所述政策数据表包括上传人、上传时间、来源、编号、政策名称、发文部门和发文日期。
5.根据权利要求2所述的方法,其特征在于,所述基本特征词包括:电价、补贴、财税、增值税退征、所得税减免、财政补贴、增值税退征、法律、法案、行动计划、规划、建设方案、全额保障收购、新能源装机容量、新增投产容量、累计并网装机容量、年发电量、装机容量占比、发电量占比、CO2减排量、SO2减排量和NOX减排量。
6.根据权利要求3所述的方法,其特征在于,所述基于预先建立的新能源政策特征词典库,对新能源政策文本进行分词处理,生成文本分词库包括:
调用开源分词工具,将所述基本特征词加载至开源分词工具的自定义词库中,利用所述开源分词工具的默认词库对新能源政策文本进行分词处理,得到分词的词性、词频和位置;
采用TF-IDF算法,计算所述基本特征词的权重;
基于所述分词的词性、词频和位置和所述基本特征词的权重,构建文本分词库。
7.根据权利要求6所述的方法,其特征在于,通过下式确定基本特征词的权重:
TF=t;
IDF=log(N/n);c
TF-IDF=TF*IDF=t*log(N/n)
式中,t为文本中基本特征词K出现的次数,N为新能源政策文本总文档数,n为包含基本特征词K的文档数。
8.根据权利要求6所述的方法,其特征在于,所述根据文本分词库的分词词频情况,更新新能源政策特征词典库包括:
根据基本特征词的权重,确定所述基本特征词在新能源政策文本中出现的频次;
基于所述基本特征词在新能源政策文本中出现的频次,对新能源政策特征词典库中未包含的基本特征词进行二次专家评估,并将评估合格的基本特征词更新至新能源政策特征词典库。
9.根据权利要求3所述的方法,其特征在于,所述采用标点符号自动识别分句的方法对新能源政策文本进行分句层次划分与标注包括:
将句号、问号、感叹号作为标明句的分句符号;
将着重号、连接号、间隔号、书名号和专名号作为编程中自动忽略的断句标记;
通过顿号、引号和括号对初始程序修改,完成分句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司;国网江苏省电力有限公司电力科学研究院,未经中国电力科学研究院有限公司;国家电网有限公司;国网江苏省电力有限公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811427506.5/1.html,转载请声明来源钻瓜专利网。