[发明专利]APP适老模式下文字段落间距合规性检测方法在审
申请号: | 202211691296.7 | 申请日: | 2022-12-27 |
公开(公告)号: | CN115880708A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 周晟;高荣秀;卜佳俊 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/19;G06V30/14 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 楼明阳 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | app 模式 文字 段落 间距 合规 检测 方法 | ||
一种基于随机森林的移动应用适老模式下文字段落是否符合规定的检测方法,包括如下步骤:提出一种基于随机森林分类的文字段落检测方法,该方法确定一行文字是段落继续行数据,还是段落开始行数据;建立行间距、段间距合规检测模型,判断APP适老模式下文字大小及排版是否符合国标要求。本发明采用机器学习中较为稳定的随进森林算法,实现了非侵入式,即不用获取APP源码,普适性强,错误率低的一种移动应用适老模式下文字段落合规检测,可应用于复杂场景,且普适性强,可应用于移动应用的自动化测试等场景。
技术领域:
本发明涉及一种基于随机森林模型的APP适老模式下文字段落间距合规性检测方法,属于计算机技术软件领域。
背景技术:
针对已经完成适老化的改造的APP,需要检测其适老化改造是否符合要求。经过调研发现,老年人对主流App改造的最主要需求包括:大字体、大图标、大间距。因此APP在适老化过程中很重要的一点是检测文字段落间距是否能满足要求。
由于无法获取APP的源码,因此APP中出现的文字,只能通过在APP端截图,然后识别图像中文字的方式来获得。不同的文本情况,比如文本是一个段落继续行,还是段落开始行,有不同的间距判断方法,因此需要先把图片中的每一行进行分类,分类出是一个继续行,还是段落新开始的一行。
目前,常见的段落检测方法大多是基于规则的逻辑判断,通过是否缩进,上一行是否结束等来设计规则,判断是否是新的一段,该类方法主要存在以下缺陷:(1)段落格式繁多,基于规则的逻辑判断很难找到合适的规则;(2)方法切维护成本非常高,如果出现了新的段落格式,则需要重新考虑规则的逻辑;(3)无法应用于复杂场景,例如一段中出现了未考虑到的情况。(3)不具有普适性,例如新的排版格式下,当前的规则判断可能不会有很好的效果。
发明内容:
针对以上问题和难点,本发明提出了一种基于随机森林模型的APP适老模式下文字段落检测方法。与基于逻辑判断方法相比,该段落检测方法可适配多种情况,普适性更高,易于维护,且随机森林可以可视化出每个特征的重要程度,直观的感受每个特征的重要性,可解释性强。
段落检测完毕后,计算本上文字与上一行文字间距,根据一行文字是段落继续行数据,还是新的段落开始行数据,通过不同标准,判断间距合规与否。
综合以上两个步骤,一种APP适老模式下文字段落间距合规性检测方法的具体步骤如下:
S1:将开启适老模式的APP截图输入进光学字符识别(OCR)模块,识别图片中的所有文本行信息;
S2:对S1中获得的文本行信息进行特征工程,提取对应特征,作为原始特征;
S3:对S2收集的原始特征进行扩充,构建新的特征,加入到原始的特征中,丰富数据;
S4:将提取的行信息,标注为新的继续行数据,还是新的段落开始数据;
S5:利用S1到S4收集的数据离线训练随机森林算法,建立随机森林分类模型;
S6:输入新的一张带有文字的APP页面截图,根据随机森林模型,判断其中的每行文字为继续行数据,还是新的段落开始数据;
S7:根据行信息,计算出该行文字的字体大小;
S8:根据行信息,计算出该行与上一行的行间距;
S9:根据其是否是新的继续行数据,还是新的段落开始数据,通过行间距的大小,判断本行与上一行的间距是否满足国标对适老化APP的要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211691296.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:砂料初筛装置
- 下一篇:一种具有警示警报水温功能的沐浴球及警示系统