[发明专利]一种文本数据过滤方法、装置及介质在审

申请号：	201910650852.8	申请日：	2019-07-18
公开（公告）号：	CN110347934A	公开（公告）日：	2019-10-18
发明（设计）人：	徐灿	申请（专利权）人：	腾讯科技（成都）有限公司
主分类号：	G06F16/9536	分类号：	G06F16/9536;G06F16/35
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	吴磊
地址：	610041 四川省成都市高***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本数据过滤用户生成内容垃圾数据计算机设备启发式规则过滤装置评论内容语言模型语句申请论坛应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种文本数据过滤方法，用于对用户生成内容进行过滤，例如贴吧、论坛或应用商店中用户发表的评论内容，包括：获取待过滤的第一文本数据；通过启发式规则过滤第一文本数据中的垃圾数据，得到第二文本数据；通过第一语言模型过滤第二文本数据中的非正常语句，得到第三文本数据；本申请还提供一种文本数据过滤装置、计算机设备及介质；能够对用户生成内容中不同类型的垃圾数据分别进行过滤。

技术领域

本发明涉及文本处理技术领域，更具体地说，涉及一种文本数据过滤方法、装置及介质。

背景技术

用户生成内容(user generated content，UGC)，即用户原创内容，比如百度贴吧，各大论坛或应用商店中用户发表的评论等。网站管理员需要对UGC进行管理，从而避免评论区充斥大量垃圾数据，导致影响评论质量。

UGC垃圾数据包含多种不同的类型的垃圾数据。现有技术中还没有一种方法，能够分别对UGC中不同类型的垃圾数据进行过滤。

因此，上述问题还有待于改进。

发明内容

有鉴于此，为解决上述问题，本发明提供一种分布式文本聚类方法。技术方案如下：

一种文本数据过滤方法，包括：

获取待过滤的第一文本数据；

通过启发式规则过滤所述第一文本数据中的垃圾数据，得到第二文本数据；

通过第一语言模型过滤所述第二文本数据中的非正常语句，得到第三文本数据。