[发明专利]一种基于混合匹配的电力铭牌语义结构化方法及系统有效
申请号: | 202110684942.6 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113420564B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 尹奎龙;滕杰;翟季青;张勇;孙学武;孙宏志;任社宜;王安东;陈令英;许光可;赵富强;李星 | 申请(专利权)人: | 国网山东省电力公司物资公司;国网山东省电力公司电力科学研究院;国家电网有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F16/33 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250001 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 匹配 电力 铭牌 语义 结构 方法 系统 | ||
1.一种基于混合匹配的电力铭牌语义结构化方法,其特征是,包括:
获取待识别的电力铭牌识别文本;
利用设置的分词特殊字符,将输入的电力铭牌识别文本分割成不同的词语;
利用电力铭牌词库,对分割的词语进行混合匹配校准,进行词的标准化,输出校准后的分词数据;
获取校准后的分词数据中的标签,利用标签库及与标签词关联的值库,在标签库中选取标签前后邻近的词进行匹配,获取其最可能的值作为标准值,建立标签词与标准值的对应关系,即结构化文本;
根据词义关系库,匹配结构化文本中主关联词与其关联的各子关联词之间的关系,最终标准化结构文本的关系;
输出标准化结构文本的关系即电力铭牌数据结构化文本;
其中,所述获取校准后的分词数据中的标签后,利用标签库依次标识校准后的分词数据是否是标签,若是,则通过标签库,获取该标签词对应的所有值库,将标签与其中对应的标准值建立映射关系,处理完所有的分词数据并输出所有映射关系,即结构化文本;
所述匹配结构化文本中主关联词与其关联的各子关联词之间的关系,最终标准化结构文本的关系,包括以下步骤:
依次遍历结构化文本中所有的映射关系,匹配关联关系表,如果标签为结构化文本中的标签,则作为主关联词,在结构化文本中查询出标签为主关联词的所有子关联词,否则分析下一个映射关系;
以子关联词为特征值,匹配所有的主关联词的所有枚举词的子关联词,每匹配成功一个计1分,最后得到分值Q,并计算其匹配率y=Q/P,其中P为子关系词数量;如果存在y80%,则选取匹配率最高的主关联词取代结构化文本中的主关联词,否则主关联词不变;
主关联词的所有标准子关联词代替结构文本中的所有子关联词;
输出关系校准后的结构化文本;
其中,所述获取该标签词对应的所有值库后,如果值库不存在标准值,对校准后的分词数据中标签词前后若干个词与标准值组依次进行匹配,选取其中可能性最大的,如果存在可能性相同的,按照邻近优先和后优先于前的原则选取标准值;如果值库存在标准值,选取标签词后一个非标签词作为标准值。
2.如权利要求1所述的一种基于混合匹配的电力铭牌语义结构化方法,其特征是,将输入的电力铭牌识别文本分割成不同的词语时,包括:
统计电力铭牌识别文本中所有的特殊字符的数量;
选取排名在前的若干个特殊字符作为本次的分词符;
按照确定的分词符,对电力铭牌识别文本进行分词划分;
对上述分词去除掉所有的特殊字符,之后输出分词结果。
3.如权利要求1所述的一种基于混合匹配的电力铭牌语义结构化方法,其特征是,所述特殊字符为在对电力铭牌识别文本进行分词之前设置的。
4.如权利要求1所述的一种基于混合匹配的电力铭牌语义结构化方法,其特征是,对分割的词语进行校准即词义校对时,使用不同的匹配方式针对分词结果的每一个词语与标准词库进行匹配,获得对应匹配结果,将得到的结果赋以不同的权重值,选取最优的匹配结果,代替分词结果中的原来的词,输出校准后的分词数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司物资公司;国网山东省电力公司电力科学研究院;国家电网有限公司,未经国网山东省电力公司物资公司;国网山东省电力公司电力科学研究院;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110684942.6/1.html,转载请声明来源钻瓜专利网。