[发明专利]一种将app内容进行索引化和可搜索化的方法在审

专利信息
申请号: 201810160727.4 申请日: 2018-02-27
公开(公告)号: CN110196922A 公开(公告)日: 2019-09-03
发明(设计)人: 胡森;周喆吾;段进伟 申请(专利权)人: 北京展心展力信息科技有限公司
主分类号: G06F16/81 分类号: G06F16/81;G06F16/835;G06F17/22
代理公司: 暂无信息 代理人: 暂无信息
地址: 100083 北京市海淀区学*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引化 蜘蛛 沙箱 搜索 图形用户界面 索引服务器 短语 布局描述 爬虫程序 提取内容 虚拟机 归档 上传 下载 单词 工作量 解析 扫描 答案 引入 节约 移动
【说明书】:

发明提出一种将app内容进行索引化和可搜索化的方法,引入一个虚拟机沙箱系统,在这里,我们的爬虫程序,即沙箱蜘蛛Sandbox Spider技术,它用于扫描全部的在沙箱内运行的组件,以识别每个组件是否为一项图形界面的一部分。如果答案为“是”,那么蜘蛛会定位并解析该布局描述文件或者图形用户界面代码,接着提取内容,上传至索引服务器,然后进一步归档内容,拆分单词和短语等。减少了移动app的下载和安装工作量,从而节约时间,提高效率。

技术领域

本发明主要应用于手机app,具体为一种将app内容进行索引化和可搜索化的方法。

背景技术

目前深度链接技术Deeplink旨在于解决可搜索性问题,然而使用该技术之前要求先安装移动app,这是一个非常强大且很少被满足的假设。

Google Instant App通过强制app的开发者执行额外一组协议,使得这项app只在用户设备上运行,用户不需要将整套内容进行下载或者安装,这样就减少了移动app的下载和安装工作量。但Instant App仍存在三项缺陷:首先,开发者需从特征级和源代码级重新组织app,这将带来额外的成本;其次,大量的遗留app和设备对上面所描述的便捷性无法支持,特别是对于安卓6.0之前的系统;第三,官方谷歌服务或者谷歌框架不能服务于中国,Google Instant App无法支持这里超过6亿的安卓系统用户。

发明内容

为解决上述背景技术中提到的app内容可搜索性问题,提出一种将app内容进行索引化和可搜索化的方法,减少了移动app的下载和安装工作量,从而节约时间,提高效率。

通常Web页面是基于文本的,所有的内容在html协议下可以被web爬虫简单的抓取和索引,这个特性对于可搜索性来讲至关重要。然而App的内容不像web页面,是基于二进制的在内存中存放,单独的、非侵入试的爬虫程序不仅难以获取到app的内容,更难以分析出哪些是用户可见的信息。为了解决这个问题,我们需要先引入一个虚拟沙箱运行环境Sandbox Runtime(以下简称“SR”),在这里,我们的爬虫程序,即沙箱蜘蛛Sandbox Spider(以下简称“SS”)技术,它用于扫描全部的在沙箱内运行的组件,以识别每个组件是否为一项图形界面的一部分。如果答案为“是”,那么蜘蛛会定位并解析该布局描述文件或者图形用户界面代码,接着提取内容,上传至索引服务器,然后进一步归档内容,拆分单词和短语等。具体为:

一种将app内容进行索引化和可搜索化的方法,由SR在目标app和底层操作系统之间充当扁平的接口,所述方法包括如下步骤:

S1:SR监督客户端app,发现客户端app开始运行时,寻找视图类的层级中视图组件的线索;

S2:在虚拟机层面,监控每个类的实例的初始化,如果发现是一个类型为View的实例,调度SS来动态检测客户端app的所有用户界面组件;

S3:如果SR发现一个新的视图类实例即将呈现在屏幕上,它会执行一段代码,用于监听安卓Windows管理器准备视图的填充过程,提取新视图的被填充的布局;

S4:通过前述代码获取屏幕上显示的任何文本/图像/多媒体剪辑以及它们是如何组织的;

S5:等待浏览器使用绘图引擎去填充一个HTLM然后解析HTML页面那样,使内容可以被识别并索引,可以从他们在布局中如何被组织解释为每一项内容的重要性,视图的可搜索性得益于视图内容的索引和权重;

S6:使用一个经常扩展名为XML的的布局描述文件来告知安卓Windows管理器每个视图元素在用户边界的绝对和/或相对坐标。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京展心展力信息科技有限公司,未经北京展心展力信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810160727.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top