[发明专利]一种基于深度学习的移动应用描述与权限保真性判定方法及装置有效
申请号: | 201810950490.X | 申请日: | 2018-08-20 |
公开(公告)号: | CN109284370B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 陈亮;冯缨岚;郑子彬 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06F21/56;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 移动 应用 描述 权限 真性 判定 方法 装置 | ||
1.一种基于深度学习的移动应用描述与权限保真性判定方法,其特征在于,包括如下步骤:
S10将移动应用描述D分句成由若干句子s组成句子集S,按句生成词向量矩阵Q,包括:
S101去停用词及英文描述词干化:假设SW为停用词集,剔除移动应用描述D中的停用词,对英文文本进行词干化操作,获得每个单词的词干部分;所述停用词集SW中除了包含通用停用词,还包括移动应用描述领域内特定的停用词;
S102将描述文本分句:用语句分隔符将移动应用描述D划分为句子集S;
S103生成词向量矩阵:从预训练的词向量语料库中找到该移动应用描述D中每个词和它所对应的词向量,按句生成每个句子s∈S的词向量矩阵Q∈Rl×k,l为句子s的总单词数,k为词向量维数;
S20使用深度神经网络结构造文本分类模型来训练学习移动应用描述D与权限类别的从属关系,设每个句子s∈S对应零个或多个权限,利用训练的深度神经网络模型输出每个句子的分类类别,每个类别代表一种权限,输出移动应用描述D的类别,整合所有移动应用描述D的类别输出作为模型输出类别对应的移动应用的预测权限集Y;
S30根据移动应用声明权限情况,判定移动应用描述D与权限保真性;
判定移动应用描述D与权限保真性包括两个判定粒度,假设P为该移动应用声明的权限集:
(1)判定某个权限的保真性:对于移动应用声明的某个权限p∈P,同时p∈Y,则该移动应用描述D与该某个权限p具有保真性;否则不保真;
(2)判定移动应用整体保真性:对于移动应用声明的任一权限p∈P,都有p∈Y,则该移动应用描述D与其任一权限p具有保真性,否则不保真。
2.如权利要求1所述的基于深度学习的移动应用描述与权限保真性判定方法,其特征在于,所述S10之前还包括深度神经网络模型的训练,具体为:
S01构造词向量语料库中预训练的词向量模型:词向量模型训练将句子序列中的单词转为向量空间中的词向量,将向量空间上的相似度表示文本语义上的相似度,生成预训练的词向量模型;
S02训练深度神经网络分类模型:
在移动应用整体层面分别采样正负训练样本,其中训练样本的数据集包括应用描述句子和对应指示的权限类别;
组织网络层的模型结构,将词向量矩阵载入神经网络的Embedding层,设置trainable=False该层权重不可再训练,完全使用预训练的词向量,Embedding层后可连接深度神经网络结构的核心单元,最后用一个sigmoid全连接输出,对每个权限类别分别做二分类,以1代表有体现该权限,以0代表无体现该权限,得到全部权限类别输出列表;
模型训练,设置二分类对数损失binary_crossentropy作为目标函数,获取当前模型相对于训练集的误差,返回近似分布和真实分布之前的交叉熵,该函数公式:
其中是第i个句子可以指示第j个权限的预测概率,是对应的真实标签,N为训练样本的总数即描述语句总数,C为类别总数即权限的数量,在取得误差后,采用RMSprop优化算法来将误差反向传播以更新模型中的参数,最小化目标函数,最终得到最优化的模型。
3.如权利要求2所述的基于深度学习的移动应用描述与权限保真性判定方法,其特征在于,所述词向量模型训练将句子序列中的单词转为向量空间中的词向量之后还包括:S011对每个生成的词向量设置存储于词向量语料库的索引编号,以句子序列中的每个单词对应一个索引编号,每个索引编号寻对应一个词向量。
4.如权利要求2所述的基于深度学习的移动应用描述与权限保真性判定方法,其特征在于,所述深度神经网络结构的核心单元包括卷积神经网络的卷积层与池化层,或者是,循环神经网络的GRU或LSTM单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810950490.X/1.html,转载请声明来源钻瓜专利网。