[发明专利]垃圾文本库的建立方法、过滤方法及系统有效

申请号：	201611085764.0	申请日：	2016-11-30
公开（公告）号：	CN106708961B	公开（公告）日：	2020-11-06
发明（设计）人：	张凯	申请（专利权）人：	北京粉笔蓝天科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京中政联科专利代理事务所(普通合伙) 11489	代理人：	陈超
地址：	100020 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	垃圾文本建立方法过滤系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种垃圾文本库的建立方法，属于计算机文本库建立技术领域。其中，该方法包括：S100：从文本中获取预先采集的至少一个垃圾文本样本；S200：检测每个垃圾文本样本中是否存在长特征词，若存在，则将该长特征词录入长特征词集；S300：基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类，得到垃圾文本和非垃圾文本；S400：将垃圾文本新增的数量与预设的收敛阈值进行比较，若垃圾文本新增的数量小于收敛阈值，则执行步骤500，否则，执行步骤600；S500：垃圾文本库建立完毕，结束流程；S600：从文本中获取新的垃圾文本样本，返回执行步骤S200至步骤S500。本发明实施例实现了只需收集少量的垃圾文本样本构建垃圾文本库，省时省力，且更加精确。

技术领域

本发明涉及计算机文本库建立技术领域，特别涉及一种垃圾文本库的建立方法，对垃圾文本进行过滤的方法和建立垃圾文本库的系统。

背景技术

随着互联网行业的普及和电子商务应用的不断深入发展，大家在网络中的互动也越来越频繁，但是在信息量不断的增大同时，不需要的垃圾信息也随之增多，导致用户在获取信息时接受到不需要的垃圾信息，从而做出错误的判断或选择。

在现有技术中，一些在线游戏或者论坛已经提供了类似垃圾评论的检测功能，其通常的处理步骤是：1、对用户输入的文本进行分词；2、对分词结果进行关键词匹配；3、如果匹配到关键词就禁止该语句的提交，或者将认为的敏感内容转换成星号。现有技术明显存在以下缺点：

1.现有技术方案提取广告关键词时需要大量的垃圾文本以及正常文本做对比才能确定垃圾特征词，统计起来费时费力；

2.收录到关键词后的相关垃圾关键词缺少进一步学习的功能；

3.忽略了关键词之间的联合概率问题。

发明内容

本发明的目的是在获取少量垃圾文本样本的情况下，实现不断学习并录入至新的垃圾文本中，节约了时间和精力，且获得的新的垃圾文本样本更加精确。

根据本发明实施例的一个方面，提供了一种垃圾文本库的建立方法，包括：

步骤S100：从文本中获取预先采集的至少一个垃圾文本样本；