[发明专利]一种垃圾文本的识别方法及装置有效

申请号：	201810594123.0	申请日：	2018-06-11
公开（公告）号：	CN108874776B	公开（公告）日：	2022-06-03
发明（设计）人：	都金涛	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/20;G06F40/289;G06F40/30;G06N3/04
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	李欣;马敬
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种垃圾文本识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种垃圾文本的识别方法，其特征在于，包括：

将待训练文本转化为词向量矩阵；

通过深度学习模型处理每个待训练文本对应的词向量矩阵，根据对每个待训练文本对应的词向量的处理结果，将所述深度学习模型训练为垃圾文本识别模型，所述深度学习模型包括卷积神经网络和双向循环神经网络；所述深度学习模型对所述词向量矩阵进行处理的步骤为：将所述词向量矩阵输入至所述卷积神经网络，所述卷积神经网络对所述词向量矩阵中的词向量进行分组，得到第一预设数量个分组后的词向量矩阵，使用第二预设数量个一维卷积模板依次对所述分组后的词向量矩阵进行卷积，得到所述第二预设数量个列向量，将所述第二预设数量个列向量组成组合矩阵，使用修正线性单元激活函数抽取对所述组合矩阵进行特征抽取，得到特征矩阵；将所述特征矩阵输入到所述双向循环神经网络进行处理，得到待训练文本的特征向量；

当接收到待识别文本时，通过所述垃圾文本识别模型识别所述待识别文本是否为垃圾文本；

所述通过深度学习模型处理每个待训练文本对应的词向量矩阵，包括：

通过所述卷积神经网络对所述词向量矩阵进行卷积，得到所述待训练文本的特征矩阵；

通过双向循环神经网络处理所述待训练文本的特征矩阵，得到所述待训练文本的特征向量；

通过激活函数处理所述待训练文本的特征向量，确定所述待训练文本属于各文本类型的概率，所述文本类型至少包括垃圾文本和正常文本。

2.根据权利要求1所述的方法，其特征在于，所述将待训练文本转化为词向量矩阵，包括：

对所述待训练文本进行分词；

从所述待训练文本中截取预设数量的词，若所述待训练文本中的词的数量小于所述预设数量，则将所述待训练文本中的词补齐至所述预设数量；

确定所述预设数量的词对应的词向量；

将所述词向量构建为所述待训练文本的词向量矩阵。

3.根据权利要求1所述的方法，其特征在于，所述通过双向循环神经网络处理所述待训练文本的特征矩阵，得到所述待训练文本的特征向量，包括：

将所述待训练文本的特征矩阵输入双向循环神经网络；