[发明专利]一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法有效

专利信息
申请号: 201811332770.0 申请日: 2018-11-09
公开(公告)号: CN109543084B 公开(公告)日: 2021-01-19
发明(设计)人: 罗敏楠;林中平;郑庆华;秦涛;刘欢 申请(专利权)人: 西安交通大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9536;G06F16/35;G06F40/30;G06N3/04;G06Q50/00
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 徐文权
地址: 710049 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 建立 面向 网络 社交 媒体 隐蔽 敏感 文本 检测 模型 方法
【说明书】:

本发明公开了一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,包括以下步骤:步骤1、互联网社交媒体文本数据高效采集及预处理,构建面向特定应用场景的数据集以及词向量词典,利用稠密的词向量,为数据集中每个类别标签赋予中文语义信息;步骤2、基于深度神经网络特征的多分类模型训练,利用卷积神经网络提取样本数据的深度特征,训练一个多分类的支持向量机;步骤3、基于中文语义理解的模型测试评价,通过深度特征向量得到文本的隐含语义。用于无敏感关键词情况下,从中文语义层面检测网络社交媒体上的中文隐蔽敏感信息,从而增加了网络舆情监测的精准程度。

技术领域

本发明属于互联网信息处理技术领域,具体涉及一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法。

背景技术

随着互联网的快速发展和全民应用,网络舆情成为社会舆情中十分重要的一部分。相对于传统媒介(电视、报纸、广播等),承载网络舆情的互联网呈现出言论自由度过高、突发性、传播快、受众广等特点,这也给舆情监控系统提出了实时性、高精度等要求。

针对隐蔽性程度较高的有害网络敏感舆情信息,近年来,不法分子逐渐避开在此类信息中直接使用涉及敏感的关键词。虽然这类单词不直接出现,但是从短文本整体的中文语义上,又可以明显地辨别出这种涉及敏感的有害舆情信息。此时,传统舆情系统的关键词过滤方法以及变形关键词过滤方法(拆分关键词、用拼音代替等)已经无法准确滤除包含隐蔽敏感信息的文本。因此,如何准确地检测出社交媒体中具有高隐蔽性的敏感文本信息是一个亟待解决的难点。

针对网络社交媒体的敏感信息检测方法,申请人经过查新,检索到一篇与本发明相关的专利,名称为一种基于计算机的互联网舆情监测系统,专利申请号为CN201620877903.2;该专利1提出了一种基于计算机的互联网舆情监测系统,该系统包括:服务器、数据存储器、信息提取器、数据采集网关、信号采集设备、智能分类检测器、应用网关监测设备、信号传感器、计算机、无线网络路由器和移动设备端。该专利通过数据采集网关简单过滤含特定敏感关键词的信息,但该方式仅能滤除包含显式关键词的敏感信息,对于语义隐蔽性程度较高(不包含特定敏感关键词)的网络敏感舆情信息,尚未提出有效的解决方案。

发明内容

为了解决上述问题,本发明提供了一种有效的建立用于检测隐蔽敏感文本信息的面向网络社交媒体的检测模型的方法。

为达到上述目的,本发明所述一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,包括以下步骤:

步骤1、互联网文本数据采集及隐蔽敏感文本数据集构建。首先,通过爬虫程序,在网络社交媒体站点——新浪微博(http://weibo.cn)上利用事件关键词(组)获取与某事件相关的微博文本内容。对上述获取的原始文本数据进行预处理,以构建面向特定应用场景的隐蔽敏感文本数据集以及词向量词典D。该数据有如下两个用途:1、作为训练神经网络的数据集;2、利用公开的word2vec方法训练词向量(稠密向量),为每一条文本样本数据的标签(tag)赋予中文语义信息。

步骤2、隐蔽敏感文本检测模型训练。对步骤1隐蔽敏感信息数据集训练集中每一个文本样本,将其表示为矩阵形式A∈Rm×n,m表示样本中的单词数,n表示词向量的维度。在训练集上预训练一个卷积神经网络分类模型(Convolutional Neural Network),该模型依次包括一个卷积层、一个池化层、一个全连接层和一个Softmax分类层。当训练完成后,固定前三层的网络参数,将Softmax分类层替换为一个待训练的全连接层,该层的输出作为一个深度特征向量(维度与词向量相同,表示输入文本的整体特征信息),基于该向量训练一个多分类支持向量机,优化该支持向量机的目标函数,从而得到最优的模型,即为隐蔽敏感文本检测模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811332770.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top