[发明专利]一种文本处理方法及装置有效
申请号: | 201811306958.8 | 申请日: | 2018-11-05 |
公开(公告)号: | CN109543024B | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 崔洪清;王涛;李翔 | 申请(专利权)人: | 联动优势科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100082 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,所述方法包括:
获得输入的文本,所述文本中包括N个字符,N为大于1的整数;
针对所述文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,M为大于等于1、且小于N的整数,且M的初始值为1,其中,所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合,以及该词在该组合中的所属子组合;其中,子组合为与其对应的组合中的近义词组成的集合;
若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,则确定所述文本属于目标文本,否则确定所述文本不属于目标文本。
2.如权利要求1所述的方法,其特征在于,所述所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的任一个敏感词组合所具有的组合特征一致,具体为:
若根据所述多个词的组合信息,确定所述多个词属于所述敏感词组合库中的同一个组合,且所述多个词所在的子组合包括了该同一个组合的所有子组合;
则确定所述多个词的组合信息所包括的组合特征与该同一个组合的组合特征一致。
3.如权利要求1或2所述的方法,其特征在于,所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时,所述目标文本为需要拦截的文本;以及
在确定所述文本属于需要拦截的文本时,拦截所述文本;在确定所述文本不属于需要拦截的文本,则释放所述文本。
4.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
在查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息时,若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时,则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息。
5.如权利要求1或2所述的方法,其特征在于,所述敏感词组合库中的所有组合按哈希有向图方式进行排列,获得所有组合中每个组合的组合特征。
6.一种文本处理装置,其特征在于,包括:
获得单元,用于获得输入的文本,所述文本中包括N个字符,N为大于1的整数;
查找单元,用于针对所述文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,M为大于等于1、且小于N的整数,且M的初始值为1,其中,所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合,以及该词在该组合中的所属子组合;其中,子组合为与其对应的组合中的近义词组成的集合;
确定单元,用于若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,则确定所述文本属于目标文本,否则确定所述文本不属于目标文本。
7.如权利要求6所述的装置,其特征在于,所述确定单元,还用于:
若根据所述多个词的组合信息,确定所述多个词属于所述敏感词组合库中的同一个组合,且所述多个词所在的子组合包括了该同一个组合的所有子组合;
则确定所述多个词的组合信息所包括的组合特征与该同一个组合的组合特征一致。
8.如权利要求6或7所述的装置,其特征在于,所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时,所述目标文本为需要拦截的文本;以及
所述确定单元,还用于
在确定所述文本属于需要拦截的文本时,拦截所述文本;在确定所述文本不属于需要拦截的文本,则释放所述文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联动优势科技有限公司,未经联动优势科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811306958.8/1.html,转载请声明来源钻瓜专利网。