[发明专利]一种垃圾文本的识别方法及装置在审
申请号: | 201811524265.6 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109766475A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 唐颢诚;都金涛;郑培凝;陆祁;周寻 | 申请(专利权)人: | 北京爱奇艺科技有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F17/22;G06F17/27 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种垃圾文本的识别方法及装置,涉及信息处理技术领域,用以实现更加准确地识别出垃圾文本。本发明实施例的方案包括:对待识别文本进行预处理操作,预处理操作为将待识别文本中满足第一预设特征的内容删除,和/或将待识别文本中满足第二预设特征的内容替换,然后将经过预处理操作的待识别文本转化为用于表示待识别文本中的文字的第一矩阵,以及用于表示待识别文本中的文字对应拼音的第二矩阵,再将第一矩阵和第二矩阵输入垃圾文本识别模型,根据垃圾文本识别模型的输出结果确定待识别文本属于各文本类型的概率,若待识别文本属于垃圾文本的概率大于预设值,则确定待识别文本为垃圾文本。 | ||
搜索关键词: | 垃圾文本 文本 矩阵 预处理操作 预设 信息处理技术 矩阵输入 内容删除 内容替换 输出结果 文本类型 文本转化 概率 拼音 | ||
【主权项】:
1.一种垃圾文本的识别方法,其特征在于,包括:对待识别文本进行预处理操作,所述预处理操作为将所述待识别文本中满足第一预设特征的内容删除,和/或将所述待识别文本中满足第二预设特征的内容替换;将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵,以及用于表示所述待识别文本中的文字对应拼音的第二矩阵;将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型,根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱奇艺科技有限公司,未经北京爱奇艺科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811524265.6/,转载请声明来源钻瓜专利网。