[发明专利]基于大数据技术的色情数据删除方法及工作系统有效
申请号: | 201910555789.X | 申请日: | 2019-06-25 |
公开(公告)号: | CN110297991B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 叶鹏;包卉;罗皓 | 申请(专利权)人: | 上海诚数信息科技有限公司 |
主分类号: | G06F16/9538 | 分类号: | G06F16/9538;G06F16/9536;G06F16/951 |
代理公司: | 上海九泽律师事务所 31337 | 代理人: | 周云 |
地址: | 201822 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 技术 色情 删除 方法 工作 系统 | ||
本发明提出了一种基于大数据技术的色情数据删除方法及工作系统,包括如下步骤:S1,通过数据提取收集方式寻找疑似色情网站;S2,根据寻找的疑似色情网站中的信息进行色情号码识别与提取;S3,将识别与提取后的色情号码接入社交网络接口;S4,接入社交网络接口后,对色情号码相关信息进行可视化处理,向终端用户进行展示。
技术领域
本发明涉及计算机数据挖掘领域,尤其涉及一种基于大数据技术的色情数据删除方法及工作系统。
背景技术
淫秽色情内容及其产业易导致社会风气败坏,引起各种各样的社会犯罪,损害身心健康,所以色情一直以来都是重点打击和监控的违法行为。
互联网对于色情内容如果没有相应的监管和识别,将会造成非常严重的社会问题,但是通过传统手段进行色情内容筛查以及分析,已经不能满足海量数据状态下的客观需求,传统方法筛选速度慢,删除不良网络内容的效率低下。这就亟需本领域技术人员解决相应的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于大数据技术的色情数据删除方法及工作系统。
为了实现本发明的上述目的,本发明提供了一种基于大数据技术的色情数据删除方法,其特征在于,包括如下步骤:
S1,通过数据提取收集方式寻找疑似色情网站;
S2,根据寻找的疑似色情网站中的信息进行色情号码识别与提取;
S3,将识别与提取后的色情号码接入社交网络接口;
S4,接入社交网络接口后,对色情号码相关信息进行可视化处理,向终端用户进行展示。
优选的,所述S1包括:
利用爬虫技术爬取疑似网站的所有文字,根据相关色情文字出现的频次来判定该网站是否色情;若是,则直接判定该网站上所有的相关网址链接为色情链接。
优选的,所述S2包括:
S2-1,对从色情网站上爬取下来的图片进行分类,将包含色情联系人手机号的图片定义为目标图片;
S2-2,对目标图片先使用CTPN算法进行文字定位监测,然后使用CNN算法进行CTC文字识别,提取出图片中的文字;
S2-3,对图片中的文字进行过滤,剔除不相关的文字,筛选出手机号码。
优选的,所述S3包括:
该接口通过使用Nginx,Springboot,Hbase,Spark和Hdfs的大数据框架技术,基于用户手机通讯数据构建社交网络,对色情号码社交网络查询提供实时服务。
优选的,所述S3还包括:
S3-1,通过使用Nginx和Springboot搭建了一个高可用的在线查询和数据上传服务;这里用到的是Nginx的反向代理,Nginx的代理过程,就是将请求发送给Nginx,然后将请求转发给后端服务器,后端服务器处理完毕之后将结果再发给Nginx,Nginx再把结果发送给客户端;Springboot服务主要实现数据上传和查询的具体逻辑实现,通过接收到Nginx转发过来的请求参数,使用Hbase提供的API去查询后端网络关系表和网络节点信息表,将查询结果整合后返回给客户端。
优选的,所述S3还包括:
S3-2,进行数据生成过程,通过使用Spark这个大数据并行计算框架完成海量关系网络数据的生成;该关系网络数据是通过将原始数据进行分区、清洗、去重、合并几个步骤生成,为了排除一些联系紧密程度很弱的数据,将网络中每个人联系最紧密的前100个的联系数据提取出来,然后存储到分布式文件存储系统Hdfs中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海诚数信息科技有限公司,未经上海诚数信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910555789.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置