[发明专利]一种Tor隐藏服务非法内容分类方法在审
申请号: | 202010824391.4 | 申请日: | 2020-08-17 |
公开(公告)号: | CN111930945A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 许明龙;张帅;王佳星;刘滋润;杨枭 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/151;G06F21/60 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 tor 隐藏 服务 非法 内容 分类 方法 | ||
1.一种Tor隐藏服务非法内容分类方法,其特征在于,包括以下步骤:
步骤一、数据集构造步骤;
步骤二、基于步骤一执行数据预处理步骤,将数据集中所有的原始文档都转变为构成文档的特征词的集合;
步骤三、基于步骤二执行特征工程步骤,对特征词集合进行处理;
步骤四、基于步骤三执行分类与评价步骤,对进行文档类别预测及分类结果评估。
2.如权利要求1所述的方法,其特征在于,步骤一具体为:根据预先设定的目标分类类别,从法律数据库中检索适用的法律规制文本,提取其中的有效信息作为法律规制训练集,同时将收集的Tor隐藏服务中活跃的非法活动网页作为实验的测试集源数据,称为Tor隐藏服务网页测试集。
3.如权利要求2所述的方法,其特征在于,步骤二具体为:数据集构造完成后,通过对所述法律规制训练集和Tor隐藏服务网页测试集分别进行一系列的处理,将数据集中所有的原始文档都转变为构成文档的特征词的集合。
4.如权利要求3所述的方法,其特征在于,步骤二中,对所述Tor隐藏服务网页测试集及法律规制训练集处理的流程具体如下:
a.清除html格式:对所述Tor隐藏服务网页测试集的HTML文档进行解析和数据提取,将页面中的HTML格式和标签这些干扰项全部剔除,仅保留页面中的文本信息;
b.文本分词:对步骤a获得的文本内容以及法律规制训练集进行分词并统一转化为小写形式,在分词的同时,判断提取的单词是否为正常的英文单词或缩写,如果不是则直接丢弃;
c.还原词形:使用Python的自然语言处理NLTK库中的WordNet对所有单词做词形还原处理,进行初步特征降维;
d.去除停用词:根据FindLaw术语资料库生成一份基于法律规制训练集的停用词表,然后使用所述停用词表过滤法律规制训练集中的无贡献特征;对于所述tor隐藏服务网页测试集,对非法活动网页文本数据进行过滤,最后生成表示该法律规制训练集和Tor隐藏服务网页测试集的特征词集合。
5.如权利要求4所述的方法,其特征在于,步骤三包括特征选择和权重计算两个子步骤,特征选择子步骤是使用卡方校验方法从所述特征词集合中抽取针对所述目标分类类别的特征词;特征权重计算子步骤选择TF-IDF算法,为数据集中文档中每个特征词赋予特征权重,代表了该特征词对于文档类别内容的贡献程度,然后根据特征权重将文档投射为空间向量。
6.如权利要求5所述的方法,其特征在于,特征选择子步骤具体为:
定义一个权值W:
其中,f表示特征词在文中的出现的频次,F表示文本词语总数,N表示语料库文本总数,n’表示包含该特征词的文本数;
通过权值调节卡方统计量,然后对特征词集合中的每个特征词ti都与所有类别进行卡方统计量计算,并按照计算结果降序排列,根据预先设定的阈值选择计算值高的特征,作为所抽取的特征词。
7.如权利要求6所述的方法,其特征在于,权重计算子步骤中,根据特征权重将文档投射为空间向量时,加权后的词频的计算公式为:
在计算TF-IDF时考虑特征位置因素,加入权重系数后计算方法如公式(8)所示:
上述两个公式中,λ是文档内容所属标签的权重系数,ωtfij为改进后的词频,ωWij为改进后的特征权重,tfij是词频,表示特征词在文本中出现的频率,n表示特征词的个数,N是数据集中的文档总数,ni是包含特征词i的文档数量。
8.如权利要求7所述的方法,其特征在于,步骤四具体为:导入相应的机器学习算法后,首先使用步骤四生成的训练集的空间向量作为机器学习算法的输入数据,设置好参数后训练分类模型,然后使用训练完成的分类模型对tor隐藏服务网页测试集中的文档类别进行预测,然后通过对比预测结果和tor隐藏服务网页测试集中文档的原始标签是否一致,对分类方案进行评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010824391.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种打印冲压瓶盖的设备
- 下一篇:一种智能医疗器械杀菌消毒装置