[发明专利]一种垃圾文本的识别方法及装置在审
申请号: | 201811524265.6 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109766475A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 唐颢诚;都金涛;郑培凝;陆祁;周寻 | 申请(专利权)人: | 北京爱奇艺科技有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F17/22;G06F17/27 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾文本 文本 矩阵 预处理操作 预设 信息处理技术 矩阵输入 内容删除 内容替换 输出结果 文本类型 文本转化 概率 拼音 | ||
1.一种垃圾文本的识别方法,其特征在于,包括:
对待识别文本进行预处理操作,所述预处理操作为将所述待识别文本中满足第一预设特征的内容删除,和/或将所述待识别文本中满足第二预设特征的内容替换;
将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵,以及用于表示所述待识别文本中的文字对应拼音的第二矩阵;
将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型,根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;
若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
2.根据权利要求1所述的方法,其特征在于,所述对待识别文本进行预处理操作的步骤,包括:
将所述待识别文本中的表情符号和回复信息删除;
根据特殊汉字与正常汉字的映射关系,将所述待识别文本中的特殊汉字转化为正常汉字。
3.根据权利要求1所述的方法,其特征在于,所述将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵,以及用于表示所述待识别文本中的文字对应拼音的第二矩阵的步骤,包括:
将经过预处理操作的待识别文本中的文字转化为文字向量;
若所述待识别文本的文字向量的维数大于预设维数,则截取所述待识别文本的所述预设维数的文字向量;
若所述待识别文本的文字向量的维数小于所述预设维数,则将所述待识别文本的文字向量补齐至所述预设维数;
将所述待识别文本的所述预设维数的文字向量构建为所述第一矩阵;
将经过预处理操作的待识别文本中的文字转化为拼音;
将所述待识别文本中的拼音转化为拼音向量;
若所述待识别文本的拼音向量的维数大于所述预设维数,则截取所述待识别文本的所述预设维数的拼音向量;
若所述待识别文本的拼音向量的维数小于所述预设维数,则将所述待识别文本的拼音向量补齐至所述预设维数;
将所述待识别文本的所述预设维数的拼音向量构建为所述第二矩阵。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型,根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率的步骤,包括:
使用至少两种卷积核分别对所述第一矩阵进行卷积,得到针对所述第一矩阵的至少两种特征向量;
使用至少两种卷积核分别对所述第二矩阵进行卷积,得到针对所述第二矩阵的至少两种特征向量;
分别对每种特征向量进行池化;
将每种特征向量对应的池化结果进行拼接,得到所述待识别文本的特征向量;
通过激活函数处理所述待识别文本的特征向量,确定所述待识别文本属于各文本类型的概率。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型步骤之前,所述方法还包括:
对待训练文本进行所述预处理操作;
将经过预处理操作的待训练文本转化为用于表示待训练文本中的文字的第三矩阵,以及用于表示待训练文本中的文字对应拼音的第四矩阵;
通过深度学习模型处理所述第三矩阵和所述第四矩阵,根据对每个待训练文本对应的第三矩阵和第四矩阵的处理结果,将所述深度学习模型训练为所述垃圾文本识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱奇艺科技有限公司,未经北京爱奇艺科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811524265.6/1.html,转载请声明来源钻瓜专利网。