[发明专利]一种适用于继电保护装置缺陷分析的专业词典构建方法在审
申请号: | 202110418922.4 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113010695A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 薛安成;刘中硕;吴超;章家欢;陈乾;田铭威;陶畅;欧阳明浩;景子洋 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/335;G06F16/35;G06F16/903;G06F40/242;G06F40/247;G06F40/279 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 102206*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 保护装置 缺陷 分析 专业 词典 构建 方法 | ||
1.一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,所述方法包括:
步骤1、继电保护缺陷记录文本数据预处理;
步骤2、继电保护缺陷记录停用词表构建;
步骤3、继电保护缺陷记录文本分词;
步骤4、继电保护缺陷记录同义词合并。
2.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤1中,文本数据预处理包括文本数据清洗和缺陷文本划分:
文本数据清洗包括删除重复缺陷记录、空白缺陷记录等无意义数据,缺陷文本划分需按照缺陷等级将缺陷文本分为危急、严重、一般三部分,并将三组文本转换为txt格式存储用于后续分词处理。
3.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤2中,停用词表构建包括基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等,具体地:
1)厂站名和线路名集合缺陷数据中的厂站名称和一次设备名称中提取,运用正则表达式的方法,去除其中的电压等级,将记录中的变电站和发电厂区分开,从中提取出所需的厂站名集合;
2)对于在文本记录中出现的保护型号,只从中提取“CSC”、“PSL”等表明发生故障的装置所属的序列;
3)采用人工识别的方式建立人名列表。
4.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤3中,文本数据分词经过两次分词,初次粗分词利用jieba分词,然后进行人工修正并对停用词进行补充完善,之后基于该次结果进行二次分词,获得质量更高的专业词典,其中,人工修正过程建立了相关的分词约束,具体如下:
1)对于出现的厂站,将具体名称替换为“变电站”、“发电厂”或“风电场”,出现的线路,将具体名称替换为“线路”,从而降低文本语料的特征空间维数,并且体现缺陷发生的地点属性;
2)专属实体名合并,例如故障/录波器、CPU/插件、重合/闸等;
3)不切分单字实词,例如光电/口、接线/头等,当作短语处理;
4)必要的虚词前后缀(尤其否定前缀),例如无/异常、不/影响等;
5)出现数字后,先判断其后一个词是否为有意义的时间、电流、电压等计量单位,若是,则保留;若不是,考虑直接删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110418922.4/1.html,转载请声明来源钻瓜专利网。