[发明专利]目标页面展示方法、装置、计算机设备及存储介质在审
申请号: | 202111118207.5 | 申请日: | 2021-09-22 |
公开(公告)号: | CN113920509A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 张博伟;董思文 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06F16/955;G06F16/958;G06V30/14 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 谢冬寒 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 页面 展示 方法 装置 计算机 设备 存储 介质 | ||
本公开揭示了一种目标页面展示方法、装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:获取目标页面的页面截图;基于所述页面截图,获取所述目标页面的页面数据,所述页面数据包括文字内容集合以及图片内容集合中的至少一种;将所述页面数据输入到页面识别模型中,获取目标页面信息;所述页面识别模型是通过页面样本的样本页面数据训练得到的;所述目标页面信息用于指示目标页面的位置信息;基于所述目标页面信息,跳转展示所述目标页面。通过页面识别模型进行目标页面识别不受限于开源环境,从而解决了可识别的目标页面局限性的问题,从而提高了目标页面识别的准确性。
技术领域
本公开涉及人工智能技术领域,特别是涉及一种目标页面展示方法、装置、计算机设备及存储介质。
背景技术
目前,可以通过训练的分类器识别出开源页面,并且获取开源页面中的开源软件资源。
在相关技术中,根据所训练出的分类器识别出目标页面是否为开源软件页面。然后,通过在所识别出的开源软件页面中查找开源软件资源并将其下载到本地,以实现对开源软件资源的提取过程。
然而,相关技术中的方案,通过训练出的分类器识别页面是否为开源软件页面,仅针对开源软件页面跳转到开源软件资源的下载页面对开源软件资源进行下载,从而导致支持跳转的目标页面具有局限性。
发明内容
本公开提供一种目标页面展示方法、装置、计算机设备及存储介质。所述技术方案如下:
一方面,提供了一种目标页面展示方法,所述方法包括:
获取目标页面的页面截图;
基于所述页面截图,获取所述目标页面的页面数据,所述页面数据包括文字内容集合以及图片内容集合中的至少一种;
将所述页面数据输入到页面识别模型中,获取目标页面信息;所述页面识别模型是通过样本页面的样本页面数据训练得到的;所述目标页面信息用于指示目标页面的位置信息;
基于所述目标页面信息,跳转展示所述目标页面。
在一种可能的实现方式中,所述将所述页面数据输入到页面识别模型中,获取目标页面信息之前,还包括:
获取所述样本页面的所述样本页面数据;
将所述样本页面数据输入所述页面识别模型,获得所述页面识别模型输出的预测页面信息;
基于所述预测页面信息,以及所述样本页面的页面信息标签获取损失函数值;
基于所述损失函数值对所述页面识别模型的模型参数进行更新。
在一种可能的实现方式中,所述获取所述样本页面的所述样本页面数据,包括:
获取所述样本页面的页面样本源码;
基于所述页面样本源码,获取所述样本页面的所述样本页面数据。
在一种可能的实现方式中,所述获取所述样本页面的所述样本页面数据,包括:
获取从第一接口返回的第一数据;所述第一接口是用于展示所述样本页面过程中进行数据交互的接口;所述第一数据是用于展示所述样本页面的动态数据;
基于所述第一数据,获取所述样本页面的所述样本页面数据。
在一种可能的实现方式中,所述基于所述页面截图,获取所述目标页面的页面数据,包括:
响应于所述页面数据包括文字内容集合,基于OCR光学字符识别技术,对所述页面截图进行文字识别,获得所述目标页面的文字内容集合;
响应于所述页面数据包括图片内容集合,基于所述页面截图中除了文字区域之外的区域,获取所述目标页面的所述图片内容集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111118207.5/2.html,转载请声明来源钻瓜专利网。