[发明专利]用于从P&ID提取机器可读信息的技术在审
申请号: | 202110125008.0 | 申请日: | 2021-01-29 |
公开(公告)号: | CN114078253A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | K-A·耶哈;M-A·加德纳 | 申请(专利权)人: | 本特利系统有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/19;G06V30/24;G06N3/04;G06N3/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 李湘;陈岚 |
地址: | 美国宾夕*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 id 提取 机器 可读 信息 技术 | ||
1.一种用于提取对于以仅图像格式的管道和仪表图(P&ID)中的文本框和符号的机器可读标记的方法,包括:
通过在计算设备上执行的P&ID数据提取应用的光学字符识别(OCR)算法来预测对于以仅图像格式的P&ID中的边界框和文本框的文本;
通过所述P&ID数据提取应用的第一机器学习算法来检测所述P&ID中的符号,所述检测针对每个符号返回预测边界框和装备的预测种类;
抽取所述预测边界框中的一个或多个,以避免重叠检测;
通过所述P&ID数据提取应用的第二机器学习算法来推断具有剩余预测边界框的每个检测到的符号的属性;以及
针对具有剩余预测边界框的每个检测到的符号,以机器可读格式将所述预测边界框和包括所述装备的预测种类和推断属性的标记存储在所述计算设备的存储器中。
2.根据权利要求1所述的方法,其中所述检测产生每个预测边界框和相关联的预测标记的置信度,并且所述推断产生每个属性的置信度,并且所述存储来存储每个置信度。
3.根据权利要求1所述的方法,还包括:
由所述P&ID数据提取应用对所述P&ID进行预处理,以对所述P&ID进行光栅化、调整大小或二进制化中的至少一项。
4.根据权利要求1所述的方法,其中所述OCR算法在语言建模中使用域特定的词典,所述域特定的词典基于给定行业中的P&ID中使用的单词和代码的知识,或者基于已知由特定用户在P&ID中使用的单词和代码的特定列表。
5.根据权利要求1所述的方法,其中所述OCR算法在语言建模中使用n元语法的域特定的模式,以防止对P&ID中预期的单词和代码的偏置。
6.根据权利要求1所述的方法,其中所述P&ID数据提取的所述第一机器学习算法基于基于区域的卷积神经网络对象检测架构。
7.根据权利要求6所述的方法,其中所述基于区域的卷积神经网络对象检测架构是更快的基于区域的卷积神经网络(R-CNN)架构。
8.根据权利要求6所述的方法,其中所述基于区域的卷积神经网络对象检测架构适于使用放大的图像尺寸、在输入层中使用增加数量的过滤器以及在输出层中使用减少数量的过滤器、考虑扩展数量的分辨率,以对作为损耗计算中不常见种类的部分的样本赋予更高的权重,或者以使用增加数量的提议边界框和预测边界框。
9.根据权利要求1所述的方法,其中所述抽取使用非极大值抑制算法。
10.根据权利要求9所述的方法,其中所述非极大值抑制算法包括操作,所述操作以用于:
基于相关联的种类的重要性以及位置的量度来对每个边界框的置信度进行加权;
计算其他边界框与具有最高加权置信度的边界框的动态重叠;以及
删除其中计算的动态重叠大于预定阈值的边界框。
11.根据权利要求1所述的方法,其中所述P&ID数据提取的所述第二机器学习算法是基于适于属性分类的深度神经网络架构。
12.根据权利要求1所述的方法,其中推断为每个符号产生可变数量的属性,并且每个属性具有可变数量的属性值。
13.根据权利要求1所述的方法,其中所述机器可读格式是与所述P&ID相关联的JavaScript对象符号(JSON)文件。
14.根据权利要求1所述的方法,还包括:
在所述P&ID数据提取应用的用户界面中显示对于所述文本框和符号的所述预测标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于本特利系统有限公司,未经本特利系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110125008.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:处理设备和包括处理设备的电子装置
- 下一篇:连接器系统