[发明专利]元素识别方法、装置、可读存储介质和电子设备在审
申请号: | 201911342150.X | 申请日: | 2019-12-23 |
公开(公告)号: | CN111143643A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 闻武;孔伟哲;刘功民;徐菁;陈彬;夏志江 | 申请(专利权)人: | 中汇信息技术(上海)有限公司 |
主分类号: | G06F16/93 | 分类号: | G06F16/93;G06K9/00;G06K9/62 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
地址: | 201203 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 元素 识别 方法 装置 可读 存储 介质 电子设备 | ||
1.一种元素识别方法,其特征在于,所述方法包括:
确定标准结构化文档,所述标准结构化文档中包括至少一个元素和与所述元素对应的属性信息;
确定数据库集群中存储的元素信息数量,所述元素信息包括元素标识和对应的第一定位信息;
响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果,所述元素识别结果包括至少一个元素信息,所述元素信息中的各元素标识与所述标准结构化文档中的元素对应;
将所述元素识别结果存储至所述数据库集群;
响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果,其中,所述各元素匹配结果包括至少一个元素信息,且与所述标准结构化文档的匹配度满足预定条件,所述匹配模型根据所述数据库集群中存储的元素信息预先训练获得;
根据所述各元素匹配结果确定元素识别结果;
以预定格式输出所述元素识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定标准结构化文档包括:
获取结构化文档,所述结构化文档中包括至少一个元素和与所述元素对应的属性信息;
对所述结构化文档进行预处理以确定所述标准结构化文档。
3.根据权利要求1所述的方法,其特征在于,所述响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果包括:
响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定候选元素识别结果,所述候选元素识别结果包括至少一个元素信息;
输出所述候选元素识别结果;
接收客户端基于所述候选元素识别结果发送的修正信息;
根据所述修正信息修正所述候选元素识别结果以确定元素识别结果。
4.根据权利要求1所述的方法,其特征在于,所述数据库集群中包括第一数据库,第二数据库和第三数据库;
所述将所述元素识别结果存储至所述数据库集群包括:
将所述元素识别结果存储至所述第一数据库;
接收客户端发送的第一存储指令和第二存储指令中的至少一个存储指令;
根据所述第一存储指令获取所述第一数据库中的多个元素信息,以生成控件标识和与所述控件标识对应的第二定位信息;
将所述控件标识和与所述控件标识对应的第二定位信息存储至所述第二数据库;
根据所述第二存储指令获取所述第一数据库中的多个元素信息,以生成页面标识和与所述页面标识对应的第三定位信息;
将所述页面标识和与所述页面标识对应的第三定位信息存储至所述第三数据库。
5.根据权利要求4所述的方法,其特征在于,所述响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果包括:
响应于所述元素信息数量大于所述阈值,判断所述标准结构化文档的类型;
根据所述标准结构化文档的类型在所述数据库集群中确定对应的目标数据库;
将所述标准结构化文档输入匹配模型中,以从对应的目标数据库中与所述标准结构化文档的匹配度满足预定条件的多个元素匹配结果。
6.根据权利要求1所述的方法,其特征在于,所述根据所述各元素匹配结果确定元素识别结果包括:
输出所述各元素匹配结果;
响应于接收到客户端返回的选中指令,确定所述选中指令对应的元素匹配结果为元素识别结果。
7.根据权利要求1所述的方法,其特征在于,所述属性信息中包括预设的偏差值、对应元素的嵌套状态、定位信息以及与各元素之间的嵌套关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中汇信息技术(上海)有限公司,未经中汇信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911342150.X/1.html,转载请声明来源钻瓜专利网。