[发明专利]图片内容属性识别方法和系统有效
申请号: | 201310632676.8 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103617262B | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 陶哲;白明;韩玉刚 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙)11348 | 代理人: | 王伟锋,刘铁生 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 内容 属性 识别 方法 系统 | ||
技术领域
本发明涉及图像识别领域,具体涉及一种图片内容属性识别方法和系统。
背景技术
在网络中很多类型的资源站点上,都会出现一些广告图片,这些广告图片的种类非常丰富,其包括各类商品的广告(例如,关于奶粉、衣服的广告),和实体商店的广告,以及一些其他类型的广告。
这些广告图片不但会出现在商家的站点上,也会出现在其他资源站点的页面上,例如,在允许用户上传图片的社区(论坛、图片站等),会有一些用户上传广告图片。大量广告图片的存在,往往对用户造成干扰,甚至用户进行图片搜索时,也会出现与用户需求无关的广告图片。
从图片的图像内容角度来看,不同广告图片是没有特别多的相似点的,所以基于目前的图像识别技术,难以对图片的图片内容属性进行识别,即难以识别出哪些图片为广告图片,也就无法对广告图片进行针对性的处理,用户的体验必然受到广告图片的影响。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种图片内容属性识别方法和系统。
依据本发明的一个方面,提供了一种图片内容属性识别方法,其包括:计算多个同源图片簇对于特定资源站点的相对转载数;根据多个同源图片簇以及对应的相对转载数训练筛选器模型;根据训练后的筛选器模型识别目标图片簇中的图片内容属性。
可选地,计算多个同源图片簇对于特定资源站点的相对转载数的步骤包括:对于多个同源图片簇中的一个同源图片簇,将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较,得到同源图片簇对于特定资源站点的相对转载数,多个资源站点包括特定资源站点。
可选地,将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤包括:计算特定资源站点上的图片的第一平均转载数;计算多个资源站点上的图片的第二平均转载数;取同源图片簇中的图片在特定资源站点上的转载数与第一平均转载数的第一差值,以及取同源图片簇中的图片在多个资源站点上的转载数与第二平均转载数的第二差值,将第一差值和第二差值对比得到同源图片簇对于特定资源站点的相对转载数。
可选地,计算特定资源站点上的图片的第一平均转载数的步骤包括:取多个同源图片簇的图片中位于特定资源站点上的多个图片,将多个图片的数量与多个图片对应的同源图片簇的数量进行对比,得到第一平均转载数。
可选地,计算多个资源站点上的图片的第二平均转载数的步骤包括:将多个同源图片簇的图片的数量,与多个同源图片簇的数量进行比较,得到第二平均转载数。
可选地,在将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤之前,还包括:抓取多个资源站点上出现的图片链接;检测图片链接与同源图片簇的图片对应的链接是否相同,和/或检测图片链接对应的图片的校验信息与同源图片簇的图片的校验信息是否相同,和/或检测图片链接对应的图片与同源图片簇的图片是否存在一个或多个相同的图像特征;根据检测结果,确定图片链接是否为同源图片簇的图片的转载,并统计同源图片簇的图片的转载数。
可选地,特定资源站点为多个同源图片簇中转载每个同源图片簇的图片最多的资源站点。
可选地,每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征。
可选地,所述方法进一步包括:提取所述同源图片簇中包含的图片的格式特征和/或图片的链接特征,根据所述多个同源图片簇、对应的相对转载数,以及对应包含的图片的格式特征训练筛选器模型;根据训练后的筛选器模型,基于所述相对转载数以及目标图片簇中包含的图片的格式特征和/或图片的链接特征,来识别目标图片簇中的图片内容属性。
可选地,所述图片的格式特征包括但不限于以下中的一种或几种组合:图片的长/宽,图片的大小,图片的清晰度,
可选地,所述图片的链接特征包括但不限于以下中的一种或几种组合:图片链接是否和网页同站,图片跳转链接是否站外。依据本发明的另一个方面,提供了一种图片内容属性识别系统,其包括:相对转载数计算模块,用于计算多个同源图片簇对于特定资源站点的相对转载数;训练模块,用于将多个同源图片簇以及对应的相对转载数输入筛选器中训练筛选器模型;筛选器,适于根据训练模块得到训练后的筛选器模型,并根据模型对目标图片簇进行筛选;识别模块,用于根据筛选器对目标图片簇进行筛选,识别目标图片簇中的图片内容属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310632676.8/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法