[发明专利]电力语料自动补全标注方法和装置在审
申请号: | 202110182134.X | 申请日: | 2021-02-08 |
公开(公告)号: | CN112906390A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 谢峰;张韬;严晴;李红;旷文腾;陆继翔;杨志宏 | 申请(专利权)人: | 国网电力科学研究院有限公司;国电南瑞科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06K9/62;G06Q50/06 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 朱远枫 |
地址: | 211106 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力 语料 自动 标注 方法 装置 | ||
本发明公开了电力语料自动补全标注方法和装置,获取基础电力语料,获取所述基础电力语料对应的分词;对获取的所述基础电力语料对应的分词完成电力语料自动补全标注。完成自动化标注,减少重复且繁琐的人工标注过程,降低了工作人员的工作量,缩短电力文本的处理时间,积累大量可利用的标注处理的电力语料。
技术领域
本发明属于电网调度技术领域,具体涉及电力语料自动补全标注方法。
背景技术
随着智能电网建设的全面展开,以及电力信息通信与电网企业经营管理的深度融合,电力语料出现爆发性增长。这些语料中隐藏着丰富的关系到电网安全稳定经济运行的信息,因“重要的事情常常被记录”而具有价值密度高的特点,因而成为电网企业宝贵的数据资产。
但不少类型的电力语料均为非结构化的数据,要利用必须先对其进行自然语言处理。自然语言处理的一种重要预处理工作就是标注。目前的标注方式均为人工标注,需要大量的人工工作,过程重复且繁琐,造成时间和资源的浪费。
另外部分电力调度规章文本因过于精炼,文本具有明显上下位关系情况下,子标题以下的文本内容均缺省相关标题的主语,对诸如实体关系抽取等后续电力语料的相关挖掘利用造成不利影响。
因此对电力语料标注过程需要减少人工标注工作量,缩短电力文本的处理时间,补全语料缺省内容,提高关于电力文本的智能化标注能力。
发明内容
本发明旨在针对目前对电力语料补全方法缺少对缺省内容的补全方式的问题,本发明提出一种电力语料自动补全标注方法。
为实现上述技术目的,本发明采用以下技术方案。
本发明提供了电力语料自动补全标注方法,包括以下步骤:获取基础电力语料,获取所述基础电力语料对应的分词;对获取的所述基础电力语料对应的分词完成电力语料自动补全标注。
进一步地,利用分词模块获取所述基础电力语料对应的分词,所述分词模块的训练方法如下:
利用分词模块对输入的基础电力语料进行初始分词;
对初始分词结果按照设定的n-gram组合,获得对应n个分词组合,并全部分词组合添加到词典树;
对词典树的词节点完成点互信息PMI计算,词节点的左右熵计算,并以点互信息PMI、邻接熵、词频和词长作为特征,最终完成词节点特征的构建;将词节点特征作为训练集,以监督学习方式训练gbdt梯度下降树,用于判定分词是否为新词;
将判定的新词集构成专业词表,添加到分词模块。
再进一步地,点互信息PMI计算公式如下:
其中p(x)为分词x的出现概率,p(y)为分词y的出现概率,p(y|x)为分词x出现的条件下分词y的出现概率,p(x|y)为分词y出现条件下分词x的出现概率,PMI(x;y)为分词x和分词y的点互信息,p(x,y)为分词x与分词y同时出现的概率。
再进一步地,所述分词模块采用结巴分词模型。
进一步地,利用NER_RoBEATa模型(用于命名实体识别的鲁棒性优化BERT预训练方法模型)对获取的所述基础电力语料对应的分词完成电力语料自动补全标注,NER_RoBEATa模型的训练方法如下:选择特定比例的分词向量标注后作为训练集,采用NER_RoBEATa模型基于获取的缺省主语库进行标注;
计算NER_RoBEATa模型的标注效果的F1值,将F1值与预先设定的阈值进行比较,F1值大于等于阈值则结束模型训练;若F1值小于阈值则扩大训练集对NER_RoBEATa模型进行训练直至F1值大于等于阈值则结束模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网电力科学研究院有限公司;国电南瑞科技股份有限公司,未经国网电力科学研究院有限公司;国电南瑞科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110182134.X/2.html,转载请声明来源钻瓜专利网。