[发明专利]一种面向青少年群体的文字和图像数据的过滤方法及系统有效
申请号: | 201910433221.0 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110175288B | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 王礼鑫;赵燕;陈思明 | 申请(专利权)人: | 中国搜索信息科技股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958;G06F16/35;G06F16/338;G06F16/335;G06F16/535;G06F16/55 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国栋 |
地址: | 100011 北京市大兴*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向青少年群体的文字和图像数据的过滤方法及系统,所述过滤方法及过滤系统通过对互联网页面数据进行数据预处理,并对数据预处理获取的结果进行是否属于青少年数据的判别、是否属于低质量数据的判别以及是否适合青少年观看图片的判别等操作,在常规的数据过滤基础上,排除了庸俗的网络文字以及图片。优点是:引入HTML视觉分块技术,充分挖掘互联网页面中的不良信息;通过大数据训练,挖掘含有恶意跳转的JS代码,具有极强的数据净化能力;使青少年不感兴趣的数据被滤掉,向青少年输送特定内容的信息,使青少年在有限的时间有效的汲取互联网上的有用信息;从青少年的角度出发,使得互联网页面上的数据更加积极健康向上。 | ||
搜索关键词: | 一种 面向 青少年 群体 文字 图像 数据 过滤 方法 系统 | ||
【主权项】:
1.一种面向青少年群体的文字和图像数据的过滤方法,其特征在于:所述过滤方法包括如下步骤,S1、对互联网页面上的文本进行数据预处理;所述数据预处理包括网页建树和分区文本提取;S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据,若是,则执行步骤S3,若否,则过滤该条数据;S3、分区文本中的数据中添加非文本特征,并判断其是否属于低质量数据,若是,则过滤该条数据;若否,则该条数据将被呈现;S4、寻找并下载分区文本中的有效图片链接,并对图片的二进制流进行处理,通过卷积神经网络判断该图片是否适合呈现给青少年,若是,则执行步骤S5,若否,则过滤该图片。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国搜索信息科技股份有限公司,未经中国搜索信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910433221.0/,转载请声明来源钻瓜专利网。