[发明专利]一种垃圾文本的识别方法及装置在审

申请号：	201811524265.6	申请日：	2018-12-13
公开（公告）号：	CN109766475A	公开（公告）日：	2019-05-17
发明（设计）人：	唐颢诚;都金涛;郑培凝;陆祁;周寻	申请（专利权）人：	北京爱奇艺科技有限公司
主分类号：	G06F16/783	分类号：	G06F16/783;G06F17/22;G06F17/27
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	李欣;马敬
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例提供了一种垃圾文本的识别方法及装置，涉及信息处理技术领域，用以实现更加准确地识别出垃圾文本。本发明实施例的方案包括：对待识别文本进行预处理操作，预处理操作为将待识别文本中满足第一预设特征的内容删除，和/或将待识别文本中满足第二预设特征的内容替换，然后将经过预处理操作的待识别文本转化为用于表示待识别文本中的文字的第一矩阵，以及用于表示待识别文本中的文字对应拼音的第二矩阵，再将第一矩阵和第二矩阵输入垃圾文本识别模型，根据垃圾文本识别模型的输出结果确定待识别文本属于各文本类型的概率，若待识别文本属于垃圾文本的概率大于预设值，则确定待识别文本为垃圾文本。
搜索关键词：	垃圾文本文本矩阵预处理操作预设信息处理技术矩阵输入内容删除内容替换输出结果文本类型文本转化概率拼音
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种垃圾文本的识别方法，其特征在于，包括：对待识别文本进行预处理操作，所述预处理操作为将所述待识别文本中满足第一预设特征的内容删除，和/或将所述待识别文本中满足第二预设特征的内容替换；将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵，以及用于表示所述待识别文本中的文字对应拼音的第二矩阵；将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型，根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率，所述文本类型至少包括正常文本和垃圾文本；若所述待识别文本属于垃圾文本的概率大于预设值，则确定所述待识别文本为垃圾文本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京爱奇艺科技有限公司，未经北京爱奇艺科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811524265.6/，转载请声明来源钻瓜专利网。

上一篇：审讯信息审核方法、装置、计算机设备和存储介质
下一篇：视频内容情感分析方法、装置、计算机设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种垃圾文本的识别方法及装置在审

专利文献下载