[发明专利]一种基于混合匹配的电力铭牌语义结构化方法及系统有效

专利信息
申请号: 202110684942.6 申请日: 2021-06-21
公开(公告)号: CN113420564B 公开(公告)日: 2022-11-22
发明(设计)人: 尹奎龙;滕杰;翟季青;张勇;孙学武;孙宏志;任社宜;王安东;陈令英;许光可;赵富强;李星 申请(专利权)人: 国网山东省电力公司物资公司;国网山东省电力公司电力科学研究院;国家电网有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/284;G06F16/33
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 李圣梅
地址: 250001 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 混合 匹配 电力 铭牌 语义 结构 方法 系统
【说明书】:

本公开提出了一种基于混合匹配的电力铭牌语义结构化方法即系统,包括:获取待识别的电力铭牌识别文本;利用设置的分词特殊符,将输入的电力铭牌识别文本分割成不同的词语;利用电力铭牌词库,对分割的词语进行混合匹配校准,进行词的标准化,输出校准后的分词数据;获取校准后的分词数据中的标签,利用标签库及与标签词关联的值库,在标签库中选取标签前后邻近的词进行匹配,获取其最可能的值,建立标签词与值的对应关系,即结构化文本;根据词义关系库,匹配结构化文本中主关联词与其关联的个子关联词之间的关系,最终标准化结构文本的关系。基于混合匹配的电力铭牌语义结构化方法相较传统的结构化准确率更高,适用性更好。

技术领域

本公开属于电力铭牌语义识别技术领域,尤其涉及一种基于混合匹配的电力铭牌语义结构化方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

电力铭牌信息是识别电力设备信息及性能参数的重要途经,但是铭牌信息主要是以图像的形式或者是人工录入的形式进行获取,其中人工录入的方式人工耗费比较大、工作效率低,容易发生错误,因此基于OCR识别技术的铭牌信息自动录入技术逐渐兴起,但是由于电力铭牌的材质、文体特点及布局负责等特性,基于图像和OCR技术的铭牌文字识别不像文本识别那样的准确,同时其识别内容难以实现自动的规则化信息。因此实现OCR识别的铭牌文字的规格化变成了一个重要的工作。

发明人在研究中发现,传统的铭牌文字规格化主要是通过分词及邻近词组配对的方式进行建立规结构化的数据,这样处理的规格化信息缺少准确性,在应用中往往适用效果比较差。部分方法通过建立标准库来实现对标签的校准,由于其标签的匹配方法比较单一,其匹配的正确率比较低,导致整个其结构化数据匹配的正确率比较低。

发明内容

为克服上述现有技术的不足,本公开提供了一种基于混合匹配的电力铭牌语义结构化方法,提升了结构化的准确率。

为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:

第一方面,公开了一种基于混合匹配的电力铭牌语义结构化方法,包括:

获取待识别的电力铭牌识别文本;

利用设置的分词特殊字符,将输入的电力铭牌识别文本分割成不同的词语;

利用电力铭牌词库,对分割的词语进行混合匹配校准,进行词的标准化,输出校准后的分词数据;

获取校准后的分词数据中的标签,利用标签库及与标签词关联的值库,在标签库中选取标签前后邻近的词进行匹配,获取其最可能的值作为标准值,建立标签词与标准值的对应关系,即结构化文本;

根据词义关系库,匹配结构化文本中主关联词与其关联的个子关联词之间的关系,最终标准化结构文本的关系;

输出标准化结构文本的关系即电力铭牌数据结构化文本。

进一步的技术方案,将输入的电力铭牌识别文本分割成不同的词语时,包括:

统计电力铭牌识别文本中所有的特殊字符的数量;

选取排名在前的若干个特殊字符作为本次的分词符;

按照确定的分词符,对电力铭牌识别文本进行分词划分;

对上述分词去除掉所有的特殊字符,之后输出分词结果。

进一步的技术方案,所述特殊字符为在对电力铭牌识别文本进行分词之前设置的。

进一步的技术方案,对分割的词语进行校准即词义校对时,使用不同的匹配方式针对分词结果的每一个词语与标准词库进行匹配,获得对应匹配结果,将得到的结果赋以不同的权重值,选取最优的匹配结果,代替分词结果中的原来的词,输出标准词库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司物资公司;国网山东省电力公司电力科学研究院;国家电网有限公司,未经国网山东省电力公司物资公司;国网山东省电力公司电力科学研究院;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110684942.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top