首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种文本反垃圾的方法及装置有效

申请号：	201810594604.1	申请日：	2018-06-11
公开（公告）号：	CN108874777B	公开（公告）日：	2023-03-07
发明（设计）人：	都金涛;周寻;陆祁;郑培凝	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/205;G06F16/335;G06F16/33
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	李欣;马敬
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本垃圾方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本反垃圾的方法，其特征在于，包括：

接收来自业务平台的待识别文本；

对所述待识别文本进行预处理，所述预处理为对所述待识别文本中的预设字符进行过滤或转换；

通过预设规则对经过预处理的待识别文本进行识别，识别所述待识别文本是否为垃圾文本；

向所述业务平台发送对所述待识别文本的识别结果；

所述通过预设规则对经过预处理的待识别文本进行识别，识别所述待识别文本是否为垃圾文本，包括：

将经过预处理的待识别文本与预设的规则集合中的规则进行匹配，若匹配中所述规则集合中的规则，则确定所述待识别文本为垃圾文本；

所述预设的规则集合中的规则包括：标点符号占比规则、字符重复比例规则、分词后的词平均长度规则、最长数字字母串规则、URL安全等级规则；

其中，所述标点符号占比规则为：文本中的标点符号所占的比例大于第一预设比例，则认为文本为垃圾文本；

所述字符重复比例规则为：文本中的相同的字符数量占文本中字符总数量的比例为字符重复比例，若该字符重复比例大于第二预设比例，则认为文本为垃圾文本；

所述分词后的词平均长度规则：对文本进行分词后词的平均长度小于第一预设值时，则认为文本为垃圾文本；

所述最长数字字母串规则：文本中连续出现的数字的数量以及连续出现的字母的数量达到第二预设值，则认为文本为垃圾文本；

所述URL安全等级规则：发送文本的用户的URL安全等级低于预设等级，则认为文本为垃圾文本。

2.根据权利要求1所述的方法，其特征在于，所述对所述待识别文本进行预处理包括：

对所述待识别文本进行表情符号过滤处理、标点符号过滤处理和特殊字符转换处理中的至少一项处理，所述特殊字符转换处理为将所述待识别文本中的特殊字符转换为常规字符。

3.根据权利要求2所述的方法，其特征在于，所述通过预设规则对经过预处理的待识别文本进行识别，识别所述待识别文本是否为垃圾文本，还包括以下至少一项：

将经过预处理的待识别文本与预设的关键词集合中的关键词进行匹配，若匹配中所述关键词集合中的关键词，则确定所述待识别文本为垃圾文本；

将经过预处理的待识别文本与句库中的句子进行模糊匹配，若所述句库中存在句子与所述经过处理的待识别文本的相似度达到第一预设值，则确定所述待识别文本为垃圾文本；

通过机器学习模型确定所述待识别文本是否为垃圾文本。

4.根据权利要求2或3所述的方法，其特征在于，所述通过预设规则对经过预处理的待识别文本进行识别，包括：

确定预设时间段内接收到雷同的待识别文本数量；

若所述预设时间段内接收到雷同的待识别文本数量大于第二预设值，则确定所述雷同的待识别文本为垃圾文本。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

接收黑名单设置指令，所述黑名单设置指令用于指示将发送垃圾文本的身份标识ID加入黑名单；

将所述黑名单设置指令指示的ID加入黑名单。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司，未经北京奇艺世纪科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810594604.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种垃圾文本的识别方法及装置
下一篇：语义实体关系抽取方法、装置及电子设备

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top