[发明专利]一种基于特征分类和情感语义分析的诈骗网站识别方法在审
申请号: | 201811250384.7 | 申请日: | 2018-10-25 |
公开(公告)号: | CN109492219A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 高勇;孙志猛;刘善武;李进;孟繁瑞;赵龙斌;刘志会;柴军民;孙涛;郝振江;夏光升 | 申请(专利权)人: | 山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/958;G06N3/04 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 王鸿远 |
地址: | 250000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 网站识别 采集 情感标识 情感分析 特征分类 特征向量 语义分析 网络安全技术 分类模型 记忆网络 网站文本 序列转换 用户体验 误判率 准确率 向量 节约 | ||
1.一种基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,包括以下步骤:
为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;
将词的序列转换为词的向量,作为特征向量;
使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。
2.根据权利要求1所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,还包括步骤:将采集的网站中的文本输入训练好的BP神经网络模型,若输出结果为诈骗网站,则将采集的网站中的文本分成多个词,为采集的网站文本中的每一个词添加情感标识。
3.根据权利要求2所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,训练BP神经网络模型包括以下步骤:
将采集到的多个网站分别标识为安全网站和诈骗网站;
将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本;
计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词;
计算出各文本中出现的每个敏感词的正反向词频,作为各文本的特征向量;
根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。
4.根据权利要求3所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词的步骤包括以下步骤:
将各文本分别分成多个词;
对各文本中的词进行过滤;
计算出各文本中过滤后的词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词。
5.根据权利要求4所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,对各文本中的词进行过滤的方法为:删掉停用词,停用词包括介词、语气助词。
6.根据权利要求5所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型的步骤包括以下步骤:
将所有文本的特征向量进行归一化处理;
根据所有归一化处理后文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。
7.根据权利要求6所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,计算词的卡方统计量的公式为:
其中,w为词,c为安全网站和诈骗网站中的任一,A为w出现在类别为c中的文本数,B为w出现在类别不为c中的文本数,C为w不出现在类别为c中的文本数,D为w不出现在类别不为c中的文本数,N为文本总数,χ2(w,c)为w在c中的卡方统计量。
8.根据权利要求7所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,计算敏感词的正反向词频的公式为:
TF-IDFw=TFw×IDFw (3)
其中,w为词,IDFw为w的词频,IDFw为w的逆向文件词频,TF-IDFw为w的正反向词频。
9.根据权利要求1-8中任一权利要求所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一的步骤包括以下步骤:
对多个词进行筛选,将出现次数小于预设频率的词删除;
为筛选后的每个词添加情感标识,情感标识为积极和消极中的任一。
10.根据权利要求9所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型的步骤包括以下步骤:
将所有特征向量进行归一化处理;
使用长短期记忆网络对所有归一化处理后的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司,未经山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811250384.7/1.html,转载请声明来源钻瓜专利网。