[发明专利]一种智能分类网页类型的方法有效
申请号: | 201811589947.5 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109726323B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 梁效宁;雷珂;张佳强 | 申请(专利权)人: | 四川巧夺天工信息安全智能设备有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/289;G06F40/216;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 641000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 分类 网页 类型 方法 | ||
本发明公开了一种智能分类网页类型的方法,其特征在于包括以下步骤:S100:编写N条网页分类消息作为算法学习的样本数据并记录在样本数据库中,其中,N为大于0的自然数;S200:将网页类型进行智能分类,包括以下步骤:S201:加载样本数据,生成加权词组数据库;S202:校验智能分类的结果。
技术领域
本发明属于互联网技术领域,涉及一种智能分类网页类型的方法。
背景技术
随着互联网技术的飞速发展,各种各样的网页层出不穷,有音乐类的、视频类的、新闻类的、开发类的、设计类的等各种网页类型,这造成各个公司很难对员工的网络访问进行有效的管理,员工可以随心所欲的访问各种类型的网站,所以,有一个对网页进行分类并限制员工访问特定类型网站的装置是非常重要的。
目前市面上已有相关的网络审计监管的设备,但是只能设定对指定的网页的访问限制,不能限制某一类型的访问,这很难穷尽所有非法的网站,而且添加限制规则也是非常麻烦的事。
发明内容
本发明针对现有技术的不足问题,提出了一种智能分类网页类型的方法,通过提取网页关键字并采用分词算法对关键字进行词组分割,对词组加权并生成加权词组数据库,达到智能分类网页类型的目的,包括以下步骤:
S S100:编写N条网页分类消息作为算法学习的样本数据并记录在样本数据库中,其中,N为大于0的自然数;
S200:将网页类型进行智能分类,包括以下步骤:
S201:加载样本数据,生成加权词组数据库;
S202:校验所述智能分类的结果。
优选地,所述步骤S201中的具体步骤如下:
S2011:加载网址,获取网页源码;
S2102:提取网页关键字,所述网页关键字包括keywords和description字段中的关键字;
S2103:采用分词算法对关键字进行词组分割,获取出现次数最多的M个词组,其中,M为大于0的自然数;
S2104:词组加权。
优选地,所述步骤S2104的具体步骤如下:
S21041:添加词组的权重:按由高到低的顺序分别添加字段属性的权重为权重1、权重2、……、权重M,记为新权重,并相应更新所述加权词组数据库,其中,M为大于0的自然数且含义与步骤S2103相同,字段属性为当前网页类型;
S21042:查找所述加权词组数据库的词组,计算当前词组所有属性权重和;
如果在所述加权词组数据库中不能查找到当前词组,则将当前词组的字段属性权重赋值为新权重并记录至所述加权词组数据库中;
如果在所述加权词组数据库中查找到当前词组,则计算当前词组所有属性的权重:
更新字段属性权重=(新权重+旧权重)*(当前词组所有属性权重和-新权重)/当前词组所有属性权重和;
除字段属性权重外的属性权重=旧权重*(当前词组所有属性权重和-新权重)/当前词组所有属性权重和,其中,旧权重为当前属性之前记录的权重,如果之前没有当前属性,则旧权重为零。
所述步骤S202的具体步骤如下:
S2021:加载网址,获取网页源码;
S2022:提取网页关键字,所述网页关键字包括keywords和description字段中的关键字;
S2023:采用分词算法对关键字进行词组分割,获取出现次数最多的M个词组,其中,M为大于0的自然数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川巧夺天工信息安全智能设备有限公司,未经四川巧夺天工信息安全智能设备有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811589947.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于推送信息的方法和装置
- 下一篇:信息曝光的展示方法及装置