[发明专利]基于深度学习的屏幕图标语义识别方法及系统有效
申请号: | 202310668770.2 | 申请日: | 2023-06-07 |
公开(公告)号: | CN116403199B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 曹为华;孙林君 | 申请(专利权)人: | 杭州实在智能科技有限公司 |
主分类号: | G06V20/60 | 分类号: | G06V20/60;G06V10/764;G06V10/776;G06V10/82;G06N3/0464 |
代理公司: | 浙江永鼎律师事务所 33233 | 代理人: | 周希良 |
地址: | 310000 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 屏幕 图标 语义 识别 方法 系统 | ||
1.基于深度学习的屏幕图标语义识别方法,其特征在于,包括如下步骤;
S1,采用原生拾取或CV拾取的方式,拾取屏幕界面的图标元素及图标元素的相关信息;所述图标元素的相关信息包括元素标签和元素的坐标;
S2,将拾取到的图标元素送入元素分类模型,获得最终图标元素的类别;
S3,根据先验知识,对最终图标元素的类别进行校验,判断分类是否正确;
S4,将步骤S3中最终确定的分类结果用于下游任务;
步骤S2中,对于原生拾取方式,结合获得的元素标签与元素分类模型得到的最终图标元素的类别,确定最终的元素语义;
步骤S2中,对于CV拾取方式,直接根据元素分类模型得到的最终图标元素的类别,确定最终的元素语义;
步骤S2中,所述元素分类模型选用轻量级的MobilenetV3网络作为骨干网络;所述MobileNetV3网络循环使用6次block基本单元,堆叠成最终的模型结构,最后通过全连接层输出最终的分类结果。
2.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法,其特征在于,步骤S1中,所述原生拾取方式为通过从操作系统的软件界面或者网页HTML界面,获取元素的标签以及根据拾取的元素坐标,使用屏幕截图的方式获取元素的图片。
3.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法,其特征在于,步骤S1中,所述CV拾取方式为针对远程桌面、Flash界面、或者操作系统指令未能覆盖到的软件,将整个屏幕界面视为一张图片,并根据拾取的元素坐标,使用屏幕截图的方式获取元素的图片。
4.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法,其特征在于,步骤S3中,图标元素的分类类别包括文字、已勾选框、未勾选框、输入栏、前进、后退、按钮、登录、文字验证码。
5.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法,其特征在于,步骤S3中,所述先验知识包括基于原生拾取的自带属性和基于特定类别的先验知识。
6.基于深度学习的屏幕图标语义识别系统,用于实现权利要求1-5任一项所述的基于深度学习的屏幕图标语义识别方法,其特征在于,所述基于深度学习的屏幕图标语义识别系统包括;
智能拾取模块,用于采用原生拾取或CV拾取的方式,拾取屏幕界面的图标元素及图标元素的相关信息;所述图标元素的相关信息包括元素标签和元素的坐标;
分类识别模块,用于将拾取到的图标元素送入元素分类模型,获得最终图标元素的类别;
校验模块,用于根据先验知识,对最终图标元素的类别进行校验,判断分类是否正确;
下游任务应用模块,用于将最终确定的分类结果用于下游任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州实在智能科技有限公司,未经杭州实在智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310668770.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种重力铸造机及其铸造方法
- 下一篇:一种输气管道阀门安全检测设备