[发明专利]一种结合深度学习和关键词因子的不良信息监测方法在审
申请号: | 202011514673.0 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112507086A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 何秋芸;高宁;舒玉凤;柯细河 | 申请(专利权)人: | 中电福富信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/953 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 彭东 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 深度 学习 关键词 因子 不良信息 监测 方法 | ||
本发明公开一种结合深度学习和关键词因子的不良信息监测方法,对样本数据进行不良信息的关键词提取和特殊规则提取;根据关键词的影响力为每个关键词归类并确定影响分值,对于监测常信息进行各类不良关键词的影响分值的综合分计算,分别判断各类影响分值的综合分是否超过设定阈值,并将不良信息归入超过阈值的对应分类。本发明将深度学习和关键词影响因子相结合的算法组合,其即有深度学习算法的优点,也不缺关键词匹配、专家规则的直指要害。
技术领域
本发明涉及互联网安全技术领域,尤其涉及一种结合深度学习和关键词因子的不良信息监测方法。
背景技术
目前使用比较广泛的不良信息检测技术是关键词匹配或者模糊匹配等方法,更进一步的是通过相关领域的专家进行不良信息的出现情况,人工整理出一套不良信息检测规则集。此方法的缺点1、关键词匹配方法会有很多误检的情况出现;2、专家规则集覆盖面有限,抽取的是和不良信息强相关的规则,和不良信息相关的一些弱相关规则可以因为相关性较少而被舍弃或漏掉,误检率较高。
采用深度学习的方法进行不良信息检测,在训练样本集有限的情况下,当不良信息较为隐蔽(不良信息较短,穿插在不同句子之间)时,深度学习算法有时候会检测失败,认为此信息正常;目前反不良信息检测的手段越来越高,单纯的使用某种工具都有其局限性。
深度学习的局限性体现在以下方面:
1、如果想深度学习算法的效果比较理想,其需要的训练样本量在百万级别(样本的前处理和半人工标签是个巨大的工作量);
2、如果训练样本不均衡、受人的主观影响较多时,训练出来的算法会出现一定的偏好;
3、反不良信息检测的手段越来越多,技术也越来越高;深度学习是先学习后使用的逻辑,在不良信息检测时有一定的局限性。
发明内容
本发明的目的在于提供一种结合深度学习和关键词因子的不良信息监测方法。
本发明采用的技术方案是:
一种结合深度学习和关键词因子的不良信息监测方法,其包括以下步骤:
步骤1,对样本数据进行不良信息的关键词提取和特殊规则提取;
步骤2,根据关键词的影响力为每个关键词归类并确定影响分值;
步骤3,对于监测常信息进行各类不良关键词的影响分值的综合分计算,
步骤4,分别判断各类影响分值的综合分是否超过设定阈值,并将不良信息归入超过阈值的对应分类。
进一步地,步骤1中通过深度学习进行不良信息的强规则和弱规则的提取,以便根据训练好的模型得到的规则集进行文本的不良信息检测测试。
进一步地,步骤2中关键词分等级的分值根据影响力由小到大分别为0.02、0.05、0.1、0.21和0.31。
进一步地,步骤3中信息分类包括赌博类、色情类和正常类,具体的归类方法如下:
步骤3-1,判断不良信息的赌博类分数是否大于赌博阈值;是则,将该不良信息归入赌博类;否则,执行步骤3-2;
步骤3-2,判断不良信息的色情类分数是否大于色情阈值;是则,将该不良信息归入色情类;否则,执行步骤3-3;
步骤3-3,更新正常的置信率并将该不良信息归入正常类。
进一步地,赌博阈值和色情阈值均为0.8。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电福富信息科技有限公司,未经中电福富信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011514673.0/2.html,转载请声明来源钻瓜专利网。