[发明专利]异常中文字符串的识别方法及装置有效
申请号: | 201510703850.2 | 申请日: | 2015-10-26 |
公开(公告)号: | CN106611176B | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 何鑫 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常 中文 字符串 识别 方法 装置 | ||
本申请公开了一种异常中文字符串的识别方法及装置。该方法包括:确定对待处理文本中的字符串进行抽样的抽样次数;根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合;根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例;以及根据中文字符串比例值识别待处理文本中是否存在异常中文字符串。通过本申请,解决了相关技术中为了提升识别文本中是否存在异常中文字符串的识别效率,导致识别文本中是否存在异常中文字符串的准确率较低的问题。
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种异常中文字符串的识别方法及装置。
背景技术
在对网络文本进行自然语言处理时,可能会因为系统原因或非系统原因产生很多异常的文本,这种异常包括中文编码的错误、恶意广告链接等等。如果在自然语言处理的解析任务之前未对待处理文本进行异常检查,那么可能造成解析中出现未知错误或者解析时间过长等问题。因此,在进行文本处理前,需要采取一定的机制对待处理文本进行异常的检查。通常,通过遍历字符串中全部字符,并对每一个字符进行统计,并制定一些过滤条件来进行判断待处理文文本中是否存在异常中文字符串,该方式准确性较高,然而,缺点在于时间复杂度与字符串长度有关,导致识别文本中是否存在异常中文字符串识别效率较低,从而不适合实践。相关技术中,为了提升识别文本中是否存在异常中文字符串识别效率,不遍历字符串,而是通过字符串中能够得到的统计量(如字符串长度)制定过滤规则并过滤。然而,该方法导致识别文本中是否存在异常中文字符串的准确率较低。
针对相关技术中为了提升识别文本中是否存在异常中文字符串的识别效率,导致识别文本中是否存在异常中文字符串的准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种异常中文字符串的识别方法及装置,以解决相关技术中为了提升识别文本中是否存在异常中文字符串的识别效率,导致识别文本中是否存在异常中文字符串的准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种异常中文字符串的识别方法。该方法包括:确定对待处理文本中的字符串进行抽样的抽样次数;根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合;根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例;以及根据中文字符串比例值识别待处理文本中是否存在异常中文字符串。
进一步地,抽样次数的数量为N,N为自然数,其中,根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合包括:确定字符串长度值,其中,字符串长度值为待处理文本中所有字符串长度的总和;在零至字符串长度值之间,生成N个随机数;分别抽取待处理文本中在N个随机数位置上的字符串,得到N个抽样字符串;以及N个抽样字符串组成抽样字符串集合。
进一步地,根据抽样字符串集合计算中文字符串比例值包括:确定抽样字符串集合中的所有字符串数量;获取抽样字符串集合中所有的中文字符串;统计抽样字符串集合中所有的中文字符串数量;以及根据抽样字符串集合中所有的中文字符串数量和抽样字符串集合中的所有字符串数量,计算中文字符串比例值。
进一步地,获取抽样字符串集合中所有的中文字符串包括:确定抽样字符串集合中开始位置上的字符串,并将开始位置上的字符串作为当前处理字符串;判断当前处理字符串是否为中文字符串;如果当前处理前字符串为中文字符串,将当前处理字符串存储至预设的中文字符串集合中,并将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;如果当前处理字符串不是为中文字符串,将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;以及将预设的中文字符串集合中所有的中文字符串作为抽样字符串集合中所有的中文字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510703850.2/2.html,转载请声明来源钻瓜专利网。