[发明专利]一种基于支持向量机的图片重要性分类方法无效
申请号: | 201210091896.X | 申请日: | 2012-03-30 |
公开(公告)号: | CN102722520A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 王灿;卜佳俊;周逸伦;杨昆;陈纯 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/46;G06K9/62 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 支持 向量 图片 重要性 分类 方法 | ||
技术领域
本发明涉及网页无障碍检测与改造方法的技术领域,特别是基于支持向量机的图片重要性分类方法。
背景技术
根据2006年全国第二次残疾人抽样调查结果,我国现有视力残疾1233万人,他们是社会上特殊困难的群体。,随着互联网的高度普及和互联网在日常生活中重要性的不断上升,视力残疾人的网页信息无障碍访问问题成为了我国信息无障碍建设工作的重要内容。视力残疾人由于身体障碍,无法正常阅读网页上的内容,所以其上网问题特别突出。视力残疾人通常使用读屏软件访问网页内容。读屏软件通过将网页上的文本信息转化为语音来帮助残疾人获取信息。对于网页上的图片,读屏软件通过HTML文档中的图片<IMG>标签的ALT属性、LONGDESC属性或者是图片标题中所包含的替代文本描述,来向视力残疾用户描述图片内容。现有的网页上越来越多的图片,在提升了正常视力用户上网体验的同时,却给视力残疾人的网页内容访问添加了更多的障碍。
网页中并非所有的图片都需要替代文本描述。网页中对网页内容的理解和导航相关的图片是重要的,需要提供合适的替代文本。除此之外,网页上还有许多用于提升网页视觉效果或者网页结构的图片是非重要的,应该提供空的替代文本,否则会干扰视力残疾人的信息获取。因此通过一种方法来对网页上的图片进行重要性分类显得尤为重 要。
目前,在机器学习等领域,对分类算法的研究已经日趋成熟。对网页中的图片提取特征,并用人工标注的方法准备好训练数据集,之后采用机器学习中现有的支持向量机的方法根据训练数据得到一个分类器,最后就可以通过从支持向量机训练得到的分类器将图片进行重要性分类。
发明内容
为了能区别网页上的重要图片与非重要图片,从而只为重要图片提供替代文本,使视力残疾人能更好地获取网页上的信息,本发明提出了一种基于支持向量机的图片重要性分类方法,该方法包括以下步骤:
1、一种面向网页内容无障碍访问的网页图片重要性分类方法,该方法的步骤如下:
1)从互联网抓取一些网页,定位网页中的图片;
2)对步骤1)得到的网页图片抽取空间特征和结构特征,对每张图片人工标注其重要性类标签,将所有图片分为重要和非重要两类,得到训练数据;
3)利用支持向量机算法,在训练数据上训练出一个分类器;
4)从互联网上抓取要进行图片分类的网页,对网页上的所有图片同样抽取其空间特征和结构特征,使用步骤3)中得到的分类器,预测图片的重要性,依此把网页上的图片分为重要和非重要两类。
2、步骤1)中所述的图片包括:
1)网页中的<img>元素;
2)有视觉呈现的<object>和<embed>元素;
3)包含背景图片属性,内容为空的节点。
3、步骤2)中所述的空间特征包括:
1)图片相对于屏幕的相对宽度nw,也就是图片宽度与屏幕宽度的比值,当比值超过1时,直接取1作为宽度归一化特征,最终计算公式如下:
其中iw为图片宽度,sw为屏幕宽度;
2)图片相对于屏幕的相对高度nh,也就是图片高度与屏幕高度的比值,当比值超过1时,直接取1作为高度归一化特征,最终计算公式如下:
其中ih为图片高度,sh为屏幕高度;
3)图片在网页中的横向位置nlo,即为图片中心在屏幕中的横向相对位置,计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210091896.X/2.html,转载请声明来源钻瓜专利网。