[发明专利]一种基于支持向量机的图片重要性分类方法无效
申请号: | 201210091896.X | 申请日: | 2012-03-30 |
公开(公告)号: | CN102722520A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 王灿;卜佳俊;周逸伦;杨昆;陈纯 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/46;G06K9/62 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 支持 向量 图片 重要性 分类 方法 | ||
1.一种面向网页内容无障碍访问的网页图片重要性分类方法,该方法的特征在于:
1)从互联网抓取网页,定位网页中的图片;
2)对步骤1)得到的网页图片抽取空间特征和结构特征,对每张图片人工标注其重要性类标签,将所有图片分为重要和非重要两类,得到训练数据;
3)利用支持向量机算法,在训练数据上训练出一个分类器;
4)从互联网上抓取要进行图片分类的网页,对网页上的所有图片同样抽取其空间特征和结构特征,使用步骤3)中得到的分类器,预测图片的重要性,依此把网页上的图片分为重要和非重要两类。
2.如权利要求1所述的面向网页内容无障碍访问的网页图片重要性分类方法,其特征在于:所述的步骤1)中所述的图片包括:
1)网页中的<img>元素;
2)有视觉呈现的<object>和<embed>元素;
3)包含背景图片属性,内容为空的节点。
3.如权利要求1所述的面向网页内容无障碍访问的网页图片重要性分类方法,其特征在于:所述的步骤2)中所述的空间特征包括:
1)图片相对于屏幕的相对宽度nw,也就是图片宽度与屏幕宽度的比值,当比值超过1时,直接取1作为宽度归一化特征,最终计算 公式如下:
其中iw为图片宽度,sw为屏幕宽度;
2)图片相对于屏幕的相对高度nh,也就是图片高度与屏幕高度的比值,当比值超过1时,直接取1作为高度归一化特征,最终计算公式如下:
其中ih为图片高度,sh为屏幕高度;
3)图片在网页中的横向位置nlo,即为图片中心在屏幕中的横向相对位置,计算公式为:
其中lo为图片左边框与网页的左边框的距离;
4)图片与页面顶部的相对距离nto,计算公式为:
其中to为图片上边框与页面顶部的距离;
5)图片与页面底部的相对距离nbo,计算公式为:
其中bo为图片下边框与页面底部的距离。
4.如权利要求1所述的面向网页内容无障碍访问的图片重要性 分类方法,其特征在于:所述的步骤2)中所述的结构特征包括:
1)并列图片个数nlc,即当前图片所在图片组中图片的个数,即网页中存在的一组与当前图片长宽相同,并以横向、纵向或表格的方式排列的图片的个数;需要将数值归一化到[0,1]区间,计算公式为:
nlc=1-0.5lc-1
其中lc为当前图片所在图片组的图片个数;
2)图片的链接性质特征,分三种情况来考虑,如果图片是一个链接,并且在网页中存在指向同一地址的文本链接,则该特征值为0,如果图片不是链接,则该特征值为0.5,如果图片是一个链接,并在同一网页中不存在指向同一地址的文本链接,则该特征值为1;
3)图片后跟随文本的词数nwc,也分为两种情况,如果图片是一个链接,则设置特征值为0.5,否则按以下公式计算:
nwc=1-0.5wc
其中wc是图片后面跟随文本的词数;
4)图片所在网页超链接内容的面积占页面所有内容面积的比重nna,计算公式如下:
其中na为网页链接内容面积,ca为页面所有内容的面积。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210091896.X/1.html,转载请声明来源钻瓜专利网。