[发明专利]一种网站不良信息监测系统及其监测方法有效
申请号: | 202010146566.0 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111383660B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 虞焰兴 | 申请(专利权)人: | 安徽声讯信息技术有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/57;G10L15/26;G10L15/30 |
代理公司: | 合肥律众知识产权代理有限公司 34147 | 代理人: | 秦超 |
地址: | 230000 安徽省合肥市高新区习友路33*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 不良信息 监测 系统 及其 方法 | ||
1.一种网站不良信息监测方法,其特征在于,包括以下步骤:
步骤1,监测设备利用网路爬虫获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种;
步骤2,对于该网站网页中包含的视频信息,监测设备提取其中的音频数据,作为视-音频信息;
步骤3,监测设备将该网站网页中包含的将视-音频信息和音频信息按照自然句对音频流进行切割,并将切割后的音频段按序发送至语音识别服务器;
步骤4,语音识别服务器将音频段内容转换成一次文本并返回至监测设备,监测设备再将语音识别服务器返回的一次文本发送至自然语言处理服务器;
步骤5,自然语言处理服务器将一次文本按照自然语言进行自动修正,并将修正后的二次文本返回至监测设备;
步骤6,监测设备对二次文本进行不良关键词检索,并将匹配到不良关键词的二次文本及其对应音频段、日志文件发送至人工监听核查终端;
步骤7,人工监听核查终端根据日志文件将音频段和二次文本进行一一对应并显示,以供人工核查;
步骤8,监测设备对该网站网页中包含的文本、图片和视频进行鉴别,若鉴别出存在不良信息,则将包含不良信息的网页链接发送至所述人工监听核查终端,以供人工核查;
步骤9,人工核查过程中,首先判断不良信息是否为纯误判,若不是,则根据不良信息情况对该网站性质分类,判断其是属于正规网站包含了些许不良信息,还是其本身就是不良网站。
2.根据权利要求1所述的网站不良信息监测方法,其特征在于,日志文件包括来源网页链接、音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本。
3.根据权利要求2所述的网站不良信息监测方法,其特征在于,监测设备对二次文本进行不良关键词检索之后,通过语义理解分析包含不良关键词语句的语义,判定为不良信息之后,再将判定为不良信息的二次文本及其对应音频段、日志文件发送至人工监听核查终端。
4.根据权利要求3所述的网站不良信息监测方法,其特征在于,监测设备对每一段音频和文本进行编号;若音频段没有对应文本,监测设备在日志文件中予以标记。
5.根据权利要求3所述的网站不良信息监测方法,其特征在于,音频段时长限制在60s以内。
6.根据权利要求3所述的网站不良信息监测方法,其特征在于,对于文本中的不良关键词进行突出显示。
7.根据权利要求3所述的网站不良信息监测方法,其特征在于,监测设备对一定区域内的所有网站循环并发处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽声讯信息技术有限公司,未经安徽声讯信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010146566.0/1.html,转载请声明来源钻瓜专利网。