[发明专利]一种基于自然语言处理的检修意见识别方法有效
申请号: | 202011483532.7 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112528627B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 辛阔;许士锦;杨林;单政博;张勇;程哲;孙雁斌;邱生敏;吴小刚;陈兴望;杨凡;张坤;吕耀棠 | 申请(专利权)人: | 中国南方电网有限责任公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279;G06F40/30;G06F16/903;G06Q10/00;G06Q50/06 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 俞翠华 |
地址: | 510063 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 检修 意见 识别 方法 | ||
1.一种基于自然语言处理的检修意见识别方法,其特征在于,包括:
获取构建好的ABNF表达式模型;
利用所述ABNF表达式模型对获取到的检修意见进行识别;
其中,所述ABNF表达式模型的构建步骤包括:
将预设的检修意见拆解成语句;
获取构建好的设备实体库;
按照预设的规则,以及所述设备实体库,整理所述语句;
对整理后的语句进行标识;
获取构建好的正则表达式,并存入所述设备实体库;
基于所述正则表达式,以及经标识后的语句,生成ABNF表达式模型;
所述ABNF表达式模型的构建步骤包括:
1)将标识过的语句,使用设备名称、厂站名称、设备状态、电力事故名称、专家标识信息和特殊词对库中词语进行句子拆分;
2)将步骤1)中拆分的句子词语做替换,将所有的设备名称、厂站名称、设备状态、电力事故替换成对应标识;
3)判断句子中存在特殊词对库中的词语,判断特殊词在本句中是否存在并列结构,若存在,使用方括号包裹特殊词语及对应的并列句;
4)为步骤3)中的所有的句子设定唯一标识句子的标识,将标识同标识结果一一对应;
5)将步骤4)中的结果存到redis库中;
所述利用所述ABNF表达式模型对获取到的检修意见进行识别,包括以下步骤:
获取所有的ABNF表达式和待识别的检修意见;
采用ABNF匹配程序解析文本,循环调用ABNF表达式去匹配检修意见,在匹配过程中遇到表达式中有自定义标识,则采用对应正则表达式去匹配字符串,匹配成功,进行表达式下一标志位继续匹配,若匹配失败,继续进行下一个ABNF表达式的匹配;
其中,如果匹配成功,则进行将返回结果组装标志位所代表的信息,结合专家意见封装成结果JSON;
如果匹配失败,将待识别语句作为Or1,将Or1中的设备名称替换成设备类型,故障名称替换成故障类型,厂站名称替换成厂站唯一标识,设备状态替换成状态唯一标识操作后的语句作为Nr1,将Nr1同Bas中的所有语句进行相似度计算,相似度如果超过预设值,则选择相似度最高的语句Ts1,按照语句Ts1对应的语义结构从Nr1中获取语义,封装成JSON;若相似度低于设定阈值,则标识识别失败,将Or1同Nr1记录日志,返回识别失败。
2.根据权利要求1所述的一种基于自然语言处理的检修意见识别方法,其特征在于:所述将预设的检修意见拆解成语句步骤之前还包括:
对预设的检修意见进行清洗。
3.根据权利要求2所述的一种基于自然语言处理的检修意见识别方法,其特征在于:所述对预设的检修意见进行清洗,包括以下步骤:
将长度低于3的检修意见,及完全由字母、数字、标点符号、特殊字符组成的检修意见清除;
如果检修意见结尾有多个标点符号,则清除检修意见结尾处的多个标点,只保留最后一个。
4.根据权利要求1所述的一种基于自然语言处理的检修意见识别方法,其特征在于:所述将预设的检修意见拆解成语句,具体为:
将预设的检修意见按照符号进行拆解成句。
5.根据权利要求1所述的一种基于自然语言处理的检修意见识别方法,其特征在于:所述设备实体库的构建步骤包括:
使用redis库作为缓存,构建设备实体库,其中:
1)在redis库中使用Hash标识设备及设备类型;
2)在redis库中记录每一种设备类型下有哪些设备;
3)在redis库中记录厂站,及所有厂站统一标识;
4)在redis库缓存电力故障专有词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国南方电网有限责任公司,未经中国南方电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011483532.7/1.html,转载请声明来源钻瓜专利网。