[发明专利]垃圾文本库的建立方法、过滤方法及系统有效
申请号: | 201611085764.0 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106708961B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 张凯 | 申请(专利权)人: | 北京粉笔蓝天科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 陈超 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 文本 建立 方法 过滤 系统 | ||
本发明实施例公开了一种垃圾文本库的建立方法,属于计算机文本库建立技术领域。其中,该方法包括:S100:从文本中获取预先采集的至少一个垃圾文本样本;S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集;S300:基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500,否则,执行步骤600;S500:垃圾文本库建立完毕,结束流程;S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。本发明实施例实现了只需收集少量的垃圾文本样本构建垃圾文本库,省时省力,且更加精确。
技术领域
本发明涉及计算机文本库建立技术领域,特别涉及一种垃圾文本库的建立方法,对垃圾文本进行过滤的方法和建立垃圾文本库的系统。
背景技术
随着互联网行业的普及和电子商务应用的不断深入发展,大家在网络中的互动也越来越频繁,但是在信息量不断的增大同时,不需要的垃圾信息也随之增多,导致用户在获取信息时接受到不需要的垃圾信息,从而做出错误的判断或选择。
在现有技术中,一些在线游戏或者论坛已经提供了类似垃圾评论的检测功能,其通常的处理步骤是:1、对用户输入的文本进行分词;2、对分词结果进行关键词匹配;3、如果匹配到关键词就禁止该语句的提交,或者将认为的敏感内容转换成星号。现有技术明显存在以下缺点:
1.现有技术方案提取广告关键词时需要大量的垃圾文本以及正常文本做对比才能确定垃圾特征词,统计起来费时费力;
2.收录到关键词后的相关垃圾关键词缺少进一步学习的功能;
3.忽略了关键词之间的联合概率问题。
发明内容
本发明的目的是在获取少量垃圾文本样本的情况下,实现不断学习并录入至新的垃圾文本中,节约了时间和精力,且获得的新的垃圾文本样本更加精确。
根据本发明实施例的一个方面,提供了一种垃圾文本库的建立方法,包括:
步骤S100:从文本中获取预先采集的至少一个垃圾文本样本;
步骤S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集;
步骤S300:基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;
步骤S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500,否则,则执行步骤600;
步骤S500:垃圾文本库建立完毕,结束流程;
步骤S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。
进一步地,检测每个垃圾文本样本中是否存在长特征词包括:基于分词算法对每个垃圾文本样本进行分词,得到分词结果。基于预存的停用词表去掉分词结果中的停用词。基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词。基于前缀匹配算法检测所述预定数量的特征词中是否存在长特征词。
进一步地,在基于贝叶斯分类器对长特征词集对应的所述垃圾文本样本进行分类之前还包括:计算长特征词集中每个长特征词的权重。将特征词集中每个特征词的权重输入至贝叶斯分类器,以对长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。
进一步地,计算长特征词集中每个长特征词的权重包括:基于式(1)计算长特征词集中每个长特征词的权重,
式(1):W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京粉笔蓝天科技有限公司,未经北京粉笔蓝天科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611085764.0/2.html,转载请声明来源钻瓜专利网。