[发明专利]一种针对跳字类关键词的过滤方法有效
申请号: | 201510231694.4 | 申请日: | 2015-05-08 |
公开(公告)号: | CN104850609B | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 蒋大可;何俊;莫燕峰 | 申请(专利权)人: | 湖北荆楚网络科技股份有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 冯卫平 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种文字处理方法,特别是一种针对跳字类关键词的过滤方法,采用本方法对信息进行检测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。 | ||
搜索关键词: | 一种 针对 跳字类 关键词 过滤 方法 | ||
【主权项】:
1.一种针对跳字类关键词的过滤方法,其特征在于:包括以下步骤:1.1.对文本进行预处理,去除HTML标签、换行符、表情标签,得到预处理文本;1.2.从预处理文本的起点取出不超过词典最大长度的汉字串作为匹配字段;1.3.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并后移n个字作为下一次分词的起点;1.4.返回步骤1.2;1.5.若未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到步骤1.3;1.6.当预处理文本中的所有汉字串被处理完毕,得出第一匹配结果;1.7.将预处理文本从其尾部取出不超过词典最大长度的汉字串作为匹配字段;1.8.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并前移n个字作为下一次分词的起点;1.9.返回步骤1.7;1.10.若未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到步骤1.8;1.11.当预处理文本中的所有汉字串被再次处理完毕,得出第二匹配结果,取第一匹配结果与第二匹配结果的并集;1.12.计算并集中各个词项 t的权重值,公式如下:其中,词频TF是指词项在一篇文档中出现的次数,定义为,表示词项t在文档d中出现的次数;逆文档率IDF是指词项出现在所有文档中的次数的倒数,定义为,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档的数目;1.13.所有词项的权重计算出来之后按照权重从小到大依次排列,选出50~100个高频词项用来表示文档;1.14.从以往处理过的文本中提取跳字类型的关键词,形成特征词典;1.15.将特征词典中的跳字类型的关键词通过正则表达式表达;1.16.用正则表达式与步骤1.13选出的50~100个高频词项进行匹配;1.17.若匹配成功则将其存储;1.18.对存储词项选择相应的处理方式,如提示、删除或锁定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北荆楚网络科技股份有限公司,未经湖北荆楚网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510231694.4/,转载请声明来源钻瓜专利网。