[发明专利]一种将app内容进行索引化和可搜索化的方法在审
申请号: | 201810160727.4 | 申请日: | 2018-02-27 |
公开(公告)号: | CN110196922A | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 胡森;周喆吾;段进伟 | 申请(专利权)人: | 北京展心展力信息科技有限公司 |
主分类号: | G06F16/81 | 分类号: | G06F16/81;G06F16/835;G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海淀区学*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引化 蜘蛛 沙箱 搜索 图形用户界面 索引服务器 短语 布局描述 爬虫程序 提取内容 虚拟机 归档 上传 下载 单词 工作量 解析 扫描 答案 引入 节约 移动 | ||
本发明提出一种将app内容进行索引化和可搜索化的方法,引入一个虚拟机沙箱系统,在这里,我们的爬虫程序,即沙箱蜘蛛Sandbox Spider技术,它用于扫描全部的在沙箱内运行的组件,以识别每个组件是否为一项图形界面的一部分。如果答案为“是”,那么蜘蛛会定位并解析该布局描述文件或者图形用户界面代码,接着提取内容,上传至索引服务器,然后进一步归档内容,拆分单词和短语等。减少了移动app的下载和安装工作量,从而节约时间,提高效率。
技术领域
本发明主要应用于手机app,具体为一种将app内容进行索引化和可搜索化的方法。
背景技术
目前深度链接技术Deeplink旨在于解决可搜索性问题,然而使用该技术之前要求先安装移动app,这是一个非常强大且很少被满足的假设。
Google Instant App通过强制app的开发者执行额外一组协议,使得这项app只在用户设备上运行,用户不需要将整套内容进行下载或者安装,这样就减少了移动app的下载和安装工作量。但Instant App仍存在三项缺陷:首先,开发者需从特征级和源代码级重新组织app,这将带来额外的成本;其次,大量的遗留app和设备对上面所描述的便捷性无法支持,特别是对于安卓6.0之前的系统;第三,官方谷歌服务或者谷歌框架不能服务于中国,Google Instant App无法支持这里超过6亿的安卓系统用户。
发明内容
为解决上述背景技术中提到的app内容可搜索性问题,提出一种将app内容进行索引化和可搜索化的方法,减少了移动app的下载和安装工作量,从而节约时间,提高效率。
通常Web页面是基于文本的,所有的内容在html协议下可以被web爬虫简单的抓取和索引,这个特性对于可搜索性来讲至关重要。然而App的内容不像web页面,是基于二进制的在内存中存放,单独的、非侵入试的爬虫程序不仅难以获取到app的内容,更难以分析出哪些是用户可见的信息。为了解决这个问题,我们需要先引入一个虚拟沙箱运行环境Sandbox Runtime(以下简称“SR”),在这里,我们的爬虫程序,即沙箱蜘蛛Sandbox Spider(以下简称“SS”)技术,它用于扫描全部的在沙箱内运行的组件,以识别每个组件是否为一项图形界面的一部分。如果答案为“是”,那么蜘蛛会定位并解析该布局描述文件或者图形用户界面代码,接着提取内容,上传至索引服务器,然后进一步归档内容,拆分单词和短语等。具体为:
一种将app内容进行索引化和可搜索化的方法,由SR在目标app和底层操作系统之间充当扁平的接口,所述方法包括如下步骤:
S1:SR监督客户端app,发现客户端app开始运行时,寻找视图类的层级中视图组件的线索;
S2:在虚拟机层面,监控每个类的实例的初始化,如果发现是一个类型为View的实例,调度SS来动态检测客户端app的所有用户界面组件;
S3:如果SR发现一个新的视图类实例即将呈现在屏幕上,它会执行一段代码,用于监听安卓Windows管理器准备视图的填充过程,提取新视图的被填充的布局;
S4:通过前述代码获取屏幕上显示的任何文本/图像/多媒体剪辑以及它们是如何组织的;
S5:等待浏览器使用绘图引擎去填充一个HTLM然后解析HTML页面那样,使内容可以被识别并索引,可以从他们在布局中如何被组织解释为每一项内容的重要性,视图的可搜索性得益于视图内容的索引和权重;
S6:使用一个经常扩展名为XML的的布局描述文件来告知安卓Windows管理器每个视图元素在用户边界的绝对和/或相对坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京展心展力信息科技有限公司,未经北京展心展力信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810160727.4/2.html,转载请声明来源钻瓜专利网。