[发明专利]电力语料自动补全标注方法和装置在审
申请号: | 202110182134.X | 申请日: | 2021-02-08 |
公开(公告)号: | CN112906390A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 谢峰;张韬;严晴;李红;旷文腾;陆继翔;杨志宏 | 申请(专利权)人: | 国网电力科学研究院有限公司;国电南瑞科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06K9/62;G06Q50/06 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 朱远枫 |
地址: | 211106 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力 语料 自动 标注 方法 装置 | ||
1.电力语料自动补全标注方法,其特征在于,包括以下步骤:获取基础电力语料,获取所述基础电力语料对应的分词;对获取的所述基础电力语料对应的分词完成电力语料自动补全标注。
2.根据权利要求1所述的电力语料自动补全标注方法,其特征在于,利用分词模块获取所述基础电力语料对应的分词,所述分词模块的训练方法如下:
利用分词模块对输入的基础电力语料进行初始分词;
对初始分词结果按照设定的n-gram组合,获得对应n个分词组合,并全部分词组合添加到词典树;
对词典树的词节点完成点互信息PMI计算,词节点的左右熵计算,并以点互信息PMI、邻接熵、词频和词长作为特征,最终完成词节点特征的构建;将词节点特征作为训练集,以监督学习方式训练gbdt梯度下降树,用于判定分词是否为新词;
将判定的新词集构成专业词表,添加到分词模块。
3.根据要求2所述的电力语料自动补全标注方法,其特征在于,点互信息PMI计算公式如下:
其中p(x)为分词x的出现概率,p(y)为分词y的出现概率,p(y|x)为分词x出现的条件下分词y的出现概率,p(x|y)为分词y出现条件下分词x的出现概率,PMI(x;y)为分词x和分词y的点互信息,p(x,y)为分词x与分词y同时出现的概率。
4.根据要求2所述的电力语料自动补全标注方法,其特征在于,所述分词模块采用结巴分词模型。
5.根据要求1所述的电力语料自动补全标注方法,其特征在于,利用NER_RoBEATa模型对获取的所述基础电力语料对应的分词完成电力语料自动补全标注;
其中,NER_RoBEATa模型的训练方法如下:选择特定比例的分词向量标注后作为训练集,采用NER_RoBEATa模型基于获取的缺省主语库进行标注;计算NER_RoBEATa模型的标注效果的F1值,将F1值与预先设定的阈值进行比较,F1值大于等于阈值则结束模型训练;若F1值小于阈值则扩大训练集对NER_RoBEATa模型进行训练直至F1值大于等于阈值则结束模型训练。
6.根据要求1所述的电力语料自动补全标注方法,其特征在于,扩大训练集的方法如下:通过基于MNLP指标对分词向量排序,筛选不确定性排名前设定比例的分词作为新增训练集。
7.根据要求1所述的电力语料自动补全标注方法,其特征在于,所述MNLP指标计算公式如下:
其中y1至yn-1,均为分词的特征向量,所述特征向量包括词频、词节点长度、点互信息PMI、左邻接熵以及右邻接熵,n为选定的分词的特征向量维度的数目,yi为分词的特征向量的任一维度,{xij}为当前的分词。
8.基于主动学习的电力语料自动补全标注装置,其特征在于,包括:分词模块以及识别标注模块,所述分词模块用于获取基础电力语料,利用预先建立的分词模块获得所述基础电力语料对应的分词;
所述识别标注模块,用于对获取的所述基础电力语料对应的分词完成电力语料自动补全标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网电力科学研究院有限公司;国电南瑞科技股份有限公司,未经国网电力科学研究院有限公司;国电南瑞科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110182134.X/1.html,转载请声明来源钻瓜专利网。