[发明专利]一种基于深度学习的网站主题分类方法及装置有效

申请号：	201911010407.1	申请日：	2019-10-23
公开（公告）号：	CN110516074B	公开（公告）日：	2020-01-21
发明（设计）人：	沈毅;马慧敏;杨星;潘祖烈;王文浩;郑超	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/954
代理公司：	11215 中国和平利用军工技术协会专利中心	代理人：	刘光德;彭霜
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网站主题网站数据训练集分类框架数值化构建分类文本分类模型自动化学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于深度学习的网站主题分类方法及装置，所述方法包括：构建网站数据训练集；提取所述训练集中的类别关键字；基于所述关键字，将所述网站数据训练集的文本数值化；构建网站主题分类框架模型；用所述网站数据训练集的数值化文本对所述网站主题分类框架模型进行训练，形成可自主分类的网站主题分类模型，实现网站主题的自动化分类。

技术领域

本发明属于互联网信息处理和人工智能领域，涉及一种深度学习的网站主题分类方法及装置。

背景技术

网站分类需求伴随着互联网的诞生而产生，随着互联网的发展而发展。早期，网站规模较小，网站分类多采用人工分类的手段，通过网址大全、网址目录等导航网站等方式向用户呈现。随着互联网网站数量爆炸性增长，人工分类的低效率已无法满足需求，因而出现了自动化网站分类技术，通过提取、分析网站域名、网页文本、网站标题、网站结构等网页及网页链接的结构特征，对网站进行自动化分类。网站分类技术被广泛应用于网站导航、搜索引擎和网站监管等领域。在网站导航领域，网站分类主要用于建立各行各业网站导航目录。在搜索引擎领域，网站分类主要用于标识网站类型，为搜索结果排序和分类提供参数。在网站监管领域，网站分类主要用于识别非法网站和恶意网站。

现有的网站自动化分类技术通常利用网站的多个特征：如URL（统一资源定位符）、网站的标题、关键词和描述信息等作为分类依据，需要人工或爬虫技术收集大量的网站特征作为数据集，然后使用机器学习方法进行建模。机器学习出来一套分类规则（分类模型），并通过文本分类算法，对网站进行分类。一般经常使用的文本分类的算法有朴素贝叶斯、KNN、支持向量机(SVM)算法。

虽然现有的自动化网站分类技术能解决数据量较大的问题，但是也存在明显的缺点和不足，主要有：（1）、结合各文本分类算法的性能比较，结果表明支持向量机（SVM）算法虽然适用于二分类且精度高，但是分类速度较慢，算法复杂度高，训练过程复杂；KNN 和朴素贝叶斯虽然分类速度快，但是精度较差；（2）、分类的类别数量不够多，难以满足多分类需求；（3）、机器学习模型训练使用的数据量偏少，用于分类依据的信息量不足；（4）、现有自动化分类技术所使用的方法和模型难以适用于对高维数据样本分类，提取特征和学习信息的能力不足。

发明内容

针对上述技术问题，旨在解决现有网站分类技术存在的针对大量网站分类的速度和精准度不能同时满足、机器学习模型训练数据量不够依据不足等问题。本发明提出了一种基于深度学习的网站主题分类方法。所述方法包括下述步骤：

步骤1：构建网站数据训练集；

步骤2：提取所述训练集中的类别关键字；

步骤3：基于所述关键字，将所述网站数据训练集的文本数值化；

步骤4：构建网站主题分类框架模型；

步骤5：用所述网站数据训练集的数值化文本对所述网站主题分类框架模型进行训练，形成可自主分类的网站主题分类模型，实现网站主题的自动化分类。

进一步的，在上述技术方案的基础上，所述步骤1还包括：

收集互联网网站的原始信息作为网站数据集；

分析所述收集的网站数据集的分布特征；

选取部分网站数据集进行分类，构建所述网站数据训练集。

进一步的，在上述技术方案的基础上，所述收集网站数据集还包括：