[发明专利]一种基于深度学习的网站主题分类方法及装置有效
申请号: | 201911010407.1 | 申请日: | 2019-10-23 |
公开(公告)号: | CN110516074B | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 沈毅;马慧敏;杨星;潘祖烈;王文浩;郑超 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/954 |
代理公司: | 11215 中国和平利用军工技术协会专利中心 | 代理人: | 刘光德;彭霜 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站主题 网站数据 训练集 分类框架 数值化 构建 分类 文本 分类模型 自动化 学习 | ||
1.一种基于深度学习的网站主题分类方法,其特征在于所述方法包括下述步骤:
步骤1:构建网站数据训练集;
步骤2:提取所述训练集中的类别关键字,具体包括:对所述训练集中的每个网站信息文本进行分词,基于词频-逆文本频率TF-IDF方法对每个分词进行统计,计算每个分词的词频tfi,j:tfi,j=(ni,j)/(∑knk,j),其中ni,j表示分词i在网站信息文本j中出现的次数,∑knk,j表示所有分词在网站信息文本j中出现的次数之和;计算每个分词的逆文本频率idfi:idfi=log10*(|D|)/(1+|{j:i∈j}|),其中|D|是指所述训练集中的网站信息文本总数,|{j:i∈j}|表示包含分词i的网站信息文本j的数量;计算tfi,j与idfi的乘积:tfi,j*idfi;
将网站信息文本j的所有分词按照tfi,j*idfi的值降序排序;
提取排序靠前的一定数量的分词作为网站信息文本j的类别关键字Keywordsj;
将上述类别关键字与用户提供的行业经验类别关键字Keywordsexp合并;
去除所述合并后的类别关键字中的停用词,构成合成类别关键字Keywordscom;
步骤3:基于所述合成关键字Keywordscom,将所述网站数据训练集的文本数值化,具体包括:
将所述每个网站信息文本j的分词i与所述合成类别关键字Keywordscom比较;
如果所述分词i为所述合成类别关键字Keywordscom中的成员,即i∈Keywordscom,则所述分词i的权重设为K3,该分词i对应的词频TF值按照如下计算公式修正:
tfi,j修正=tfi,j+K3,其中,tfi,j修正为修正后的分词i在网站信息文本j中出现的频率;
如果所述分词i不为所述合成类别关键字Keywordscom中的成员,即但所述分词i的词频高于特定阈值,并且该分词也不为停用词,则所述分词i的权重设为K2,则该分词对应的词频TF值按照如下计算公式修正:
tfi,j修正=tfi,j+K2,其中,tfi,j修正为修正后的分词i在网站信息文本j中出现的频率;
如果所述分词i不为所述合成类别关键字Keywordscom中的成员,即所述分词i的词频也不高于特定阈值,且所述分词也不为停用词,则所述分词i的权重设为K1,则该分词i对应的词频TF值按照如下计算公式修正:
tfi,j修正=tfi,j+K1,其中,tfi,j修正为修正后的分词i在网站信息文本j中出现的频率;
根据修正后的TF值,重新计算每个分词的TF值与IDF的乘积,tfi,j*idfi,其中,K3>>K2>>K1>0;
根据重新计算的所述每个网站信息文本的分词的TF值与IDF的乘积实现所述每个网站信息文本的数值化;
步骤4:构建网站主题分类框架模型;
步骤5:用所述网站数据训练集的数值化文本对所述网站主题分类框架模型进行训练,形成可自主分类的网站主题分类模型,实现网站主题的自动化分类。
2.如权利要求1所述的方法,其特征在于所述步骤1还包括:
收集互联网网站的原始信息作为网站数据集;
分析所述收集的网站数据集的分布特征;
选取部分网站数据集进行分类,构建所述网站数据训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911010407.1/1.html,转载请声明来源钻瓜专利网。