[发明专利]一种适用于继电保护装置缺陷分析的专业词典构建方法在审

专利信息
申请号: 202110418922.4 申请日: 2021-04-19
公开(公告)号: CN113010695A 公开(公告)日: 2021-06-22
发明(设计)人: 薛安成;刘中硕;吴超;章家欢;陈乾;田铭威;陶畅;欧阳明浩;景子洋 申请(专利权)人: 华北电力大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/33;G06F16/335;G06F16/35;G06F16/903;G06F40/242;G06F40/247;G06F40/279
代理公司: 暂无信息 代理人: 暂无信息
地址: 102206*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 适用于 保护装置 缺陷 分析 专业 词典 构建 方法
【权利要求书】:

1.一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,所述方法包括:

步骤1、继电保护缺陷记录文本数据预处理;

步骤2、继电保护缺陷记录停用词表构建;

步骤3、继电保护缺陷记录文本分词;

步骤4、继电保护缺陷记录同义词合并。

2.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤1中,文本数据预处理包括文本数据清洗和缺陷文本划分:

文本数据清洗包括删除重复缺陷记录、空白缺陷记录等无意义数据,缺陷文本划分需按照缺陷等级将缺陷文本分为危急、严重、一般三部分,并将三组文本转换为txt格式存储用于后续分词处理。

3.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤2中,停用词表构建包括基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等,具体地:

1)厂站名和线路名集合缺陷数据中的厂站名称和一次设备名称中提取,运用正则表达式的方法,去除其中的电压等级,将记录中的变电站和发电厂区分开,从中提取出所需的厂站名集合;

2)对于在文本记录中出现的保护型号,只从中提取“CSC”、“PSL”等表明发生故障的装置所属的序列;

3)采用人工识别的方式建立人名列表。

4.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤3中,文本数据分词经过两次分词,初次粗分词利用jieba分词,然后进行人工修正并对停用词进行补充完善,之后基于该次结果进行二次分词,获得质量更高的专业词典,其中,人工修正过程建立了相关的分词约束,具体如下:

1)对于出现的厂站,将具体名称替换为“变电站”、“发电厂”或“风电场”,出现的线路,将具体名称替换为“线路”,从而降低文本语料的特征空间维数,并且体现缺陷发生的地点属性;

2)专属实体名合并,例如故障/录波器、CPU/插件、重合/闸等;

3)不切分单字实词,例如光电/口、接线/头等,当作短语处理;

4)必要的虚词前后缀(尤其否定前缀),例如无/异常、不/影响等;

5)出现数字后,先判断其后一个词是否为有意义的时间、电流、电压等计量单位,若是,则保留;若不是,考虑直接删除。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110418922.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top