[发明专利]一种网站不良信息监测系统及其监测方法有效
申请号: | 202010146566.0 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111383660B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 虞焰兴 | 申请(专利权)人: | 安徽声讯信息技术有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/57;G10L15/26;G10L15/30 |
代理公司: | 合肥律众知识产权代理有限公司 34147 | 代理人: | 秦超 |
地址: | 230000 安徽省合肥市高新区习友路33*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 不良信息 监测 系统 及其 方法 | ||
本发明公开了一种网站不良信息监测系统及其监测方法,监测系统包括监测设备、与所述监测设备交互的语音识别服务器和人工监听核查终端。本发明将音频信息和视频信息中的音频数据也纳入网站不良信息监测范围,但是由于音频数据现有的监测手段主要是人工监听和语音识别两种,人工监听存在工作量大的问题,语音识别存在准确率低的问题,本发明通过将这两种音频数据监测手段有机结合,克服结合过程中存在的各种难题,在保证监测准确性的同时,极大缩减了人工监听的工作量,具有很好的推广价值;同时系统智能鉴别和人工核查结合的方式,同样可以用于文本、图片(包含视频帧截图)的核查,提高网站不良信息鉴别的准确性。
技术领域
本发明涉及网络信息安全技术领域,尤其是一种网站不良信息监测系统及其监测方法。
背景技术
虚拟的网络世界与现实世界是对等的,现实世界中有美与丑、善与恶,网络世界里同样也有美与丑、善与恶。在互联网刚刚兴起的年代,人们上网主要为了查询资料和信息,彼时不良信息还非常有限。然而,随着互联网的不断发展,人们开始在网络上追求娱乐、寻找商机、阅读新闻,此时不良信息开始逐渐扩散。近几年,不良信息甚至发展成为一种产业,并开始从单纯的“知识型”信息向“谋利型”转变,而且手段多样、形式复杂,其中不乏很多违反法律、违反道德的不良信息,其中以色情类内容为主,还参杂着赌博、诈骗、枪械贩卖等违法内容。打击发布不良信息的网站,一直是我国有关单位的重要职责。如何快速从数量庞大的众多网站中查找出含有不良信息的,是网络信息安全的主要研究方向之一。
国家知识产权局于2018年1月5日公开的发明专利申请CN107547555A公开了一种网站安全监测方法,将提取的网页内容信息按照文本、图片、视频进行分类鉴别,并通过设置多重阈值防止误判。此监测方案存在两大问题:第一,忽略了音频数据在不良信息鉴别中的作用;第二,通过阈值防止误判,仍然存在误判的可能性,不仅可能将不包含不良信息的网站误判成不良信息网站,还有可能将不良信息网站误判成正规网站,简而言之,就是监测准确率不足。
发明内容
针对上述问题,本发明提供一种网站不良信息监测系统及其监测方法。
本发明保护一种网站不良信息监测系统,包括监测设备、与所述监测设备交互的语音识别服务器和人工监听核查终端。
所述监测设备获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种;对于该网站网页中包含的视频信息,监测设备提取其中的音频数据,作为视-音频信息。
所述监测设备将该网站网页中包含的将视-音频信息和音频信息按照自然句对音频流进行切割,并将切割后的音频段按序发送至所述语音识别服务器。
所述语音识别服务器将音频段内容转换成文本并返回至所述监测设备,所述监测设备对文本进行不良关键词检索,并将匹配到不良关键词的文本及其对应音频段、日志文件发送至所述人工监听核查终端,所述人工监听核查终端根据所述日志文件将音频段和文本进行一一对应并显示,以供人工核查;所述日志文件包括但不限于来源网页链接、音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本。
所述监测设备对该网站网页中包含的文本、图片和视频进行鉴别,若鉴别出存在不良信息,则将包含不良信息的网页链接发送至所述人工监听核查终端,以供人工核查。
进一步的,所述监测设备与自然语言处理服务器交互,所述语音识别服务器将音频段内容转换成一次文本并返回至所述监测设备,所述监测设备再将所述语音识别服务器返回的一次文本发送至所述自然语言处理服务器,所述自然语言处理服务器将一次文本按照自然语言进行自动修正,并将修正后的二次文本返回至所述监测设备。
所述监测设备对二次文本进行不良关键词检索,并将匹配到不良关键词的二次文本及其对应音频段、日志文件发送至所述人工监听核查终端,所述人工监听核查终端根据所述日志文件将音频段和二次文本进行一一对应并显示,以供人工核查。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽声讯信息技术有限公司,未经安徽声讯信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010146566.0/2.html,转载请声明来源钻瓜专利网。