[发明专利]一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法有效
申请号: | 201811332770.0 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109543084B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 罗敏楠;林中平;郑庆华;秦涛;刘欢 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9536;G06F16/35;G06F40/30;G06N3/04;G06Q50/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 建立 面向 网络 社交 媒体 隐蔽 敏感 文本 检测 模型 方法 | ||
1.一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法,其特征在于,包括以下步骤:
步骤1、互联网文本数据采集及隐蔽敏感文本数据集构建:在网络社交媒体站点上利用事件关键词或关键词组获取与某事件相关的原始文本数据,对获取的文本数据进行预处理,以构建隐蔽敏感文本数据集以及词向量词典D,并将隐蔽敏感信息数据集划分为训练集和测试集;
步骤2、隐蔽敏感文本检测模型训练:训练隐蔽敏感信息数据集中的每一个文本样本,将其表示为矩阵形式A∈Rm×n,m表示样本中的单词数,n表示词向量的维度;在训练集上预训练一个卷积神经网络分类模型,训练完成后,固定前三层的网络参数,将Softmax分类层替换为一个待训练的全连接层,该层的输出作为一个深度特征向量,基于该深度特征向量训练一个多分类支持向量机,优化该支持向量机的目标函数,从而得到最优的模型,即为隐蔽敏感文本检测模型;
步骤3、隐蔽敏感文本检测模型测试及评估:使用预先划分好的测试集样本对步骤2中训练完成的隐蔽敏感文本检测模型进行测试及性能评估,评估隐蔽敏感文本检测模型的准确率;
步骤2包括以下步骤:
步骤2.1、对一个经过预处理的文本样本(xi,yi),xi表示第i个输入网络的隐蔽敏感原始文本数据,yi表示其对应的类别标签,为one-hot编码形式;xi首先被表示为i×n的矩阵形式,i为xi中实际包含的词向量数,然后对xi进行处理,使训练集数据转换为维度为m×n的输入矩阵A,行数m表示词向量数,列数n表示一个词向量的维度;
步骤2.2、训练卷积神经网络模型,作为预训练模型,首先构建一个4层的卷积神经网络,在网络结构上包括一个卷积层C1,一个池化层P2,一个全连接层F3和一个Softmax分类层S4;在训练集上优化卷积神经网络的网络参数,待网络参数迭代至最优,作为步骤2.4的预训练模型;
步骤2.3、引入样本类别携带的语义信息,对于某样本的类别单词wt,从词向量词典D索引得到一个n维的词向量表示类别标签的中文语义信息;
步骤2.4、改变步骤2.2中预训练模型的网络结构,训练隐蔽敏感信息检测模型,固定C1、P2、F3层,将S4层替换为一个线性变换层L4,将步骤2.2中F3层得到的特征向量F3传入线性变换层L4计算后得到一个n维深度特征向量,用下列目标函数训练L4层的参数矩阵M,
其中,O表示多分类支持向量机的目标函数,margin为支持向量机分类间隔值,为样本类别单词tag表征的中文单词的词向量,M为线性变换层的参数矩阵,经过初始化后需要训练,为线性变换层输出向量;为其余类别对应词向量;L4层输出与词向量同维度的稠密向量表示输入样本的低维文本语义向量;最后分别计算它与样本对应的类别词向量和其余类别词向量的点积,使用点积相似度度量文本语义向量与类别向量的相似性,点积运算的值越大,则表示文本样本与某个类别词在语义上更为接近,则可判断为该训练样本属于哪个类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811332770.0/1.html,转载请声明来源钻瓜专利网。