[发明专利]一种基于机器学习的高准确度网站敏感词检测方法在审

申请号：	201910984628.2	申请日：	2019-10-16
公开（公告）号：	CN110750981A	公开（公告）日：	2020-02-04
发明（设计）人：	江辉云;范渊	申请（专利权）人：	杭州安恒信息技术股份有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/289;G06F40/30;G06N20/00
代理公司：	33230 杭州赛科专利代理事务所(普通合伙)	代理人：	郭薇;冯年群
地址：	310051 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于机器学习的高准确度网站敏感词检测方法，将待检测文件首先与敏感词数据库进行规则匹配，得到包含敏感词的文档集合，对训练数据进行处理、学习以输出机器学习模型，随后将文档集合输入模型，得到网站敏感词检测结果。本发明结合机器学习算法进行模型训练，而后对爬取的网站页面首先进行敏感词规则匹配，然后再次对规则匹配后的输出网站进行机器学习自动分析，减少机器学习模型预测的数据量，提高检测速度和准确性，最终通过统计推算得出页面包含敏感词的可能性；由于通过机器学习并进行语义分析，并通过与分词含义的组合判断，本发明能有效提高敏感性词汇识别率，并能确保监测准确率，能极大减少监理机构的人力成本。
搜索关键词：	敏感词规则匹配网站机器学习模型敏感词检测机器学习文档集合机器学习算法待检测文件监测准确率词汇识别基于机器监理机构模型训练人力成本网站页面训练数据语义分析自动分析准确度输出数据量分词页面推算数据库学习检测预测统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于机器学习的高准确度网站敏感词检测方法，其特征在于：所述方法包括以下步骤：/n步骤1：基于网站，下载待检测文件；新建敏感词数据库；/n步骤2：将待检测文件与敏感词数据库进行规则匹配，得到包含敏感词的文档集合；/n步骤3：获取训练数据，对训练数据进行处理，学习，获得符合训练要求的数据，输出机器学习模型；/n步骤4：将步骤2的文档集合输入模型，得到网站敏感词检测结果。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司，未经杭州安恒信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910984628.2/，转载请声明来源钻瓜专利网。

上一篇：短语语料获取方法及短语语料获取装置
下一篇：一种法律文书的纠错方法、装置、存储介质及处理器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于机器学习的高准确度网站敏感词检测方法在审

专利文献下载