[发明专利]一种基于朴素贝叶斯算法的网页内容篡改检测方法在审

申请号：	201810562524.8	申请日：	2018-06-04
公开（公告）号：	CN108830108A	公开（公告）日：	2018-11-16
发明（设计）人：	李建聪;邓金城	申请（专利权）人：	成都知道创宇信息技术有限公司
主分类号：	G06F21/64	分类号：	G06F21/64;G06F17/30;G06K9/62
代理公司：	成都信博专利代理有限责任公司 51200	代理人：	张辉
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	篡改网页贝叶斯算法网页内容篡改检测关键词内容关键词库网页篡改网站显示概率准确率网站样本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于朴素贝叶斯算法的网页内容篡改检测方法，其特征在于，包括以下步骤：

步骤1：使用爬虫动态解析、爬取待提取页面内容；

步骤2：除去步骤1里获取到的页面内容中的html标签、css代码、JavaScript代码；

步骤3：分词，即将网站内容中的句子分解为词语；

步骤4：使用TF-IDF根据某个词的词频和该词在文档中出现的次数来对词语的重要程度进行衡量，将所有词语按照TF-IDF指数从大到小排序，按顺序选取一定数量词语作为该文档的特征词；

步骤5：对一定数量网站得到的特征词进行人工标注；即如果该网页为正常网页，则从该网页提取的特征词标注为正常；若该网页已经被篡改，则从篡改页面提取的特征词注为被篡改；

步骤6：将步骤5所得标注的特征词及其标注存入数据库中，作为样本特征词库；

步骤7：根据步骤1至步骤4的方法提取待检测网站的特征词，并使用朴素贝叶斯算法结合步骤6得到的样本特征词库进行分类，判断待检测网站内容是否被篡改。

2.如权利要求1所述的一种基于朴素贝叶斯算法的网页内容篡改检测方法，其特征在于，在步骤1中，使用能模拟浏览器的爬虫技术来获取页面内容。

3.如权利要求1所述的一种基于朴素贝叶斯算法的网页内容篡改检测方法，其特征在于，根据步骤7的检测结果将所提取的特征词分类存入样本特征词库，对样本特征词库进行更新。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都知道创宇信息技术有限公司，未经成都知道创宇信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810562524.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载