[发明专利]一种基于朴素贝叶斯算法的网页内容篡改检测方法在审

申请号：	201810562524.8	申请日：	2018-06-04
公开（公告）号：	CN108830108A	公开（公告）日：	2018-11-16
发明（设计）人：	李建聪;邓金城	申请（专利权）人：	成都知道创宇信息技术有限公司
主分类号：	G06F21/64	分类号：	G06F21/64;G06F17/30;G06K9/62
代理公司：	成都信博专利代理有限责任公司 51200	代理人：	张辉
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于朴素贝叶斯算法的网页内容篡改检测方法，用于检测网页是否被恶意篡改。对于同一个网站，虽然网页的结构可能不断变化，但是网站显示内容的关键词总是相似的，因此在网页篡改前与被篡改后的关键词内容发生了较大的变化。根据以上的思想，本发明首先建立正常与被篡改网页的样本关键词库，然后使用朴素贝叶斯算法分别计算该网页被篡改与未被篡改的概率，并判断二者的大小，最后得出网页是否被篡改的概率。本发明提高了检测的准确率与稳定性。
搜索关键词：	篡改网页贝叶斯算法网页内容篡改检测关键词内容关键词库网页篡改网站显示概率准确率网站样本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于朴素贝叶斯算法的网页内容篡改检测方法，其特征在于，包括以下步骤：步骤1：使用爬虫动态解析、爬取待提取页面内容；步骤2：除去步骤1里获取到的页面内容中的html标签、css代码、JavaScript代码；步骤3：分词，即将网站内容中的句子分解为词语；步骤4：使用TF‑IDF根据某个词的词频和该词在文档中出现的次数来对词语的重要程度进行衡量，将所有词语按照TF‑IDF指数从大到小排序，按顺序选取一定数量词语作为该文档的特征词；步骤5：对一定数量网站得到的特征词进行人工标注；即如果该网页为正常网页，则从该网页提取的特征词标注为正常；若该网页已经被篡改，则从篡改页面提取的特征词注为被篡改；步骤6：将步骤5所得标注的特征词及其标注存入数据库中，作为样本特征词库；步骤7：根据步骤1至步骤4的方法提取待检测网站的特征词，并使用朴素贝叶斯算法结合步骤6得到的样本特征词库进行分类，判断待检测网站内容是否被篡改。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都知道创宇信息技术有限公司，未经成都知道创宇信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810562524.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于朴素贝叶斯算法的网页内容篡改检测方法在审

专利文献下载