[发明专利]一种基于特征分类和情感语义分析的诈骗网站识别方法在审

专利信息
申请号: 201811250384.7 申请日: 2018-10-25
公开(公告)号: CN109492219A 公开(公告)日: 2019-03-19
发明(设计)人: 高勇;孙志猛;刘善武;李进;孟繁瑞;赵龙斌;刘志会;柴军民;孙涛;郝振江;夏光升 申请(专利权)人: 山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F16/958;G06N3/04
代理公司: 北京力量专利代理事务所(特殊普通合伙) 11504 代理人: 王鸿远
地址: 250000 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网站 网站识别 采集 情感标识 情感分析 特征分类 特征向量 语义分析 网络安全技术 分类模型 记忆网络 网站文本 序列转换 用户体验 误判率 准确率 向量 节约
【说明书】:

发明涉及网络安全技术领域,尤其涉及一种基于特征分类和情感语义分析的诈骗网站识别方法。该方法包括以下步骤:为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;将词的序列转换为词的向量,作为特征向量;使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。本发明利用BP神经网络模型先对采集到的网站进行识别,只有在采集到的网站是诈骗网站的情况下,才对采集到的网站进行基于情感分析的判断,有利于降低误判率,提高网站识别准确率,还有利于提高用户体验,节约时间。

技术领域

本发明涉及网络安全技术领域,尤其涉及一种基于特征分类和情感语义分析的诈骗网站识别方法。

背景技术

随着近年来国内互联网的发展,网站的数量日益增多。非正常、不安全的网站数量也逐渐增多,而且让人难以分辨,非正常网站包括恶意网站、钓鱼网站、诈骗网站等,一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息,获取用户个人隐私等,给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一,在网络安全中,对其进行识别是确保网络安全的重中之重。

现有的网站监测或者识别技术主要是通过维护黑名单来判断用户访问的网站是否为恶意、钓鱼、诈骗网站,这种方法需要极高的人工成本进行筛选;另一种网站识别方法是通过URL(Uniform Resoure Locator,统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址)特征,其识别速度快,能主动发现非正常网站,但由于URL包含的信息有限,仅从URL并不能很好的判断出一个网站属于非正常网站还是正常网站,所以现在也有一些基于网站内容的网站识别方法。基于内容的网站分类涉及到文本分类,现有的文本分类技术主要流程为提取敏感关键词,计算文本中关键词的TF-IDF(term frequency–inverse document frequency,是一种用于信息检索与数据挖掘的常用加权技术)作为特征向量,然后用SVM(Support Vector Machine,支持向量机)训练这些特征向量生成分类模型。但是在实际情况中,有些安全、正常网站中也包含有同样的关键词和相似的词频,如“反诈骗联盟”等,由于网站中含有“诈骗”这个非安全网站的敏感词语,现有的网站识别模型也会把正常网站识别为诈骗网站。

因此,为了提高网站识别的准确率,降低误判率,急需一种基于特征分类和情感语义分析的诈骗网站识别方法。

发明内容

本发明提供了一种基于特征分类和情感语义分析的诈骗网站识别方法,以解决现有技术中网站识别方法误判率高的问题。

本发明提供了一种基于特征分类和情感语义分析的诈骗网站识别方法,包括以下步骤:

为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;

将词的序列转换为词的向量,作为特征向量;

使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。

进一步地,还包括步骤:将采集的网站中的文本输入训练好的BP神经网络模型,若输出结果为诈骗网站,则将采集的网站中的文本分成多个词,为采集的网站文本中的每一个词添加情感标识。

进一步地,训练BP神经网络模型包括以下步骤:

将采集到的多个网站分别标识为安全网站和诈骗网站;

将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本;

计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词;

计算出各文本中出现的每个敏感词的正反向词频,作为各文本的特征向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司,未经山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811250384.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top