[发明专利]一种电力语料标记模型构建方法及系统在审
申请号: | 202010547313.4 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111831788A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 田然;苏杨;庞渊源;陈轩;顾彬;王磊;吴子辰;李霁轩;陈鑫;朱晓鸿;王鑫;于广荣 | 申请(专利权)人: | 国网江苏省电力有限公司信息通信分公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/247;G06F40/279;G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 史俊军 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电力 语料 标记 模型 构建 方法 系统 | ||
1.一种电力语料标记模型构建方法,其特征在于:包括,
对训练集中的已标记电力语料进行扩展,训练初始的标记模型;
判断训练的标记模型是否满足预设要求,若不满足预设要求,用该标记模型对未标记的电力语料进行标记,并将标记后的电力语料放入训练集,对训练集中的已标记电力语料进行扩展,重新训练标记模型,重复该步骤,直到训练的标记模型满足预设要求。
2.根据权利要求1所述的一种电力语料标记模型构建方法,其特征在于:对训练集中的已标记电力语料进行扩展,具体过程为,
以一句话作为序列,对已标记电力语料进行序列划分;
基于同义词词典、电力领域专业词典,对序列中的同义词进行替换,将替换后的序列加入训练集;
对原序列和替换后的序列进行回译,将回译后的序列加入训练集;
对长度大于极大阈值的回译后的序列进行裁剪,将裁剪后的序列加入训练集;
对长度小于极小阈值的若干回译后的序列进行拼接,将拼接后的序列加入训练集。
3.根据权利要求2所述的一种电力语料标记模型构建方法,其特征在于:裁剪和拼接之前的序列保留。
4.根据权利要求1所述的一种电力语料标记模型构建方法,其特征在于:采用增量学习的方式,重新训练标记模型。
5.一种电力语料标记模型构建系统,其特征在于:包括,
初始模块:对训练集中的已标记电力语料进行扩展,训练初始的标记模型;
增量训练模块:判断训练的标记模型是否满足预设要求,若不满足预设要求,用该标记模型对未标记的电力语料进行标记,并将标记后的电力语料放入训练集,对训练集中的已标记电力语料进行扩展,重新训练标记模型,重复该步骤,直到训练的标记模型满足预设要求。
6.根据权利要求5所述的一种电力语料标记模型构建系统,其特征在于:初始模块包括训练样本扩展模块,训练样本扩展模块:对训练集中的已标记电力语料进行扩展;
训练样本扩展模块包括,
序列划分模块:以一句话作为序列,对已标记电力语料进行序列划分;
同义词替换模块:基于同义词词典、电力领域专业词典,对序列中的同义词进行替换,将替换后的序列加入训练集;
回译模块:对原序列和替换后的序列进行回译,将回译后的序列加入训练集;
裁剪模块:对长度大于极大阈值的回译后的序列进行裁剪,将裁剪后的序列加入训练集;
拼接模块:对长度小于极小阈值的若干回译后的序列进行拼接,将拼接后的序列加入训练集。
7.根据权利要求6所述的一种电力语料标记模型构建系统,其特征在于:裁剪模块保留裁剪之前的序列,拼接模块保留拼接之前的序列。
8.根据权利要求5所述的一种电力语料标记模型构建系统,其特征在于:增量训练模块采用增量学习的方式,重新训练标记模型。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至4所述的方法中的任一方法。
10.一种计算设备,其特征在于:包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至4所述的方法中的任一方法的指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司信息通信分公司,未经国网江苏省电力有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010547313.4/1.html,转载请声明来源钻瓜专利网。