[发明专利]一种电网领域调度场景下的文本纠错方法及系统在审
申请号: | 202011509488.2 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112528663A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 孙雁斌;辛阔;范展滔;程哲;吴小刚;张坤;单政博;陈兴望;王子强;许士锦;吕耀棠 | 申请(专利权)人: | 中国南方电网有限责任公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/232;G06Q50/06;G06N3/04;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 张欢欢 |
地址: | 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电网 领域 调度 场景 文本 纠错 方法 系统 | ||
1.一种电网领域调度场景下的文本纠错方法,其特征是,包括以下过程:
对文本中句子进行分词和命名实体识别,获得分词集合和命名实体集合;
将命名实体集合与知识库做实体链接确定实体的真实信息;
用命名实体识别集合对分词集合进行词边界修正以更新分词集合;
对分词集合中各词添加拼音特征生成新的分词集合;
将新的分词集合输入概率模型获得各个词出现的概率,并根据概率确定可疑错别字;
根据可疑错别字的拼音从拼音字典中获得此词的候选集;
将候选集中候选词逐个带入句子,重新生成特征带入概率模型,并根据概率确定最优候选。
2.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述对文本中句子处理前还包括:删除语气词重复词。
3.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述将命名实体集合与知识库做实体链接,确定实体的真实信息,包括:
从命名实体集合中提取设备类实体组成实体类集合;
遍历实体类集合中各设备类实体,将各设备类实体与知识库中同类型的实体做文本距离分析;
选取所有实体中文本距离最接近的实体作为当前遍历设备类实体的真实值。
4.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述生成新的分词集合后,还包括对新的分词集合进行符号转译,具体包括:
数字根据拼音做转换:
0读洞;1读妖;2读两;3读三;4读四;5读五;6读六;7读拐;8读八;9读勾。
5.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述概率模型为Transformer+Bi-LSTM模型。
6.根据权利要求5所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述将新的分词集合输入概率模型获得各个词出现的概率,包括:
将新的分词集合通过word2vec模型转换为词向量;
将词向量输入Transformer+Bi-LSTM模型,输出各个词在句子中出现的概率。
7.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述根据概率确定可疑错别字,包括:
将概率小于阈值的词认为是可疑错别字。
8.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述获取候选集后,还包括:对候选集中各词进行合法性检查,具体过程为:
删除候选集中包含的敏感词和自定义函数,所述自定义函数包括:候选词不在基于电网语料训练的词向量中和命名实体被作为错别字。
9.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述根据概率确定最优候选,包括:
选取概率最大的候选词作为最优候选。
10.一种电网领域调度场景下的文本纠错系统,其特征是,包括:
集合获取模块,用于对文本中句子进行分词和命名实体识别,获得分词集合和命名实体集合;
实体链接模块,用于将实体类集合与知识库做实体链接确定实体的真实信息;
分词修正模块,用于用命名实体识别集合对分词集合进行词边界修正以更新分词集合;
词序列模块,用于对分词集合中各词添加拼音生成新的分词集合;
错别字定位模块,用于将新的分词集合输入概率模型获得各个词出现的概率,并根据概率确定可疑错别字;
候选生成模块,用于根据可疑错别字的拼音从拼音字典中获得此词的候选集;
最优候选确定模块,用于将候选集中候选词逐个带入句子,重新生成特征带入概率模型,并根据概率确定最优候选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国南方电网有限责任公司,未经中国南方电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011509488.2/1.html,转载请声明来源钻瓜专利网。