[发明专利]一种用于获取失序文本中的目标字符串的方法与设备有效
申请号: | 201110264447.6 | 申请日: | 2011-09-07 |
公开(公告)号: | CN102982012A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 李彦宏;舒迅;方勇;王波;徐文涛 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 获取 失序 文本 中的 目标 字符串 方法 设备 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于获取失序文本中的目标字符串的方法与设备。
背景技术
在网络论坛中,经常发生用户将网络论坛禁止的诸如广告、色情、暴力、违法的信息植入到失序文本中,例如竖行文本、斜行文本等,并能够成功地将该失序文本提交至网络论坛,从而达到发布禁止信息的目的,因为现有技术主要能够识别并过滤正常排列顺序的文本中的上述禁止信息,但对失序文本中的禁止信息却不能有效识别。
因此,如何有效识别失序文本中的包含该禁止信息的目标字符串成为亟待解决的问题。
发明内容
本发明的目的是提供一种用于获取失序文本中的目标字符串的方法与设备。
根据本发明的一个方面,提供一种用于获取失序文本中的目标字符串的方法,其中,该方法包括以下步骤:
a获取待处理的失序文本;
b对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;
c根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。
根据本发明的一个方面,提供一种用于获取失序文本中的目标字符串的设备,其中,该设备包括:
文本获取装置,用于获取待处理的失序文本;
排列组合装置,用于对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;
匹配查询装置,用于根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。
与现有技术相比,本发明通过对失序文本中的字符进行排列组合,并将其结果在目标模式库中进行匹配查询,以获得所述失序文本中的包含禁止信息的目标字符串,从而有效识别失序文本中的禁止信息,由此增强系统应用过滤禁止信息的能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面用于获取失序文本中的目标字符串的设备示意图;
图2示出根据本发明一个优选实施例的用于获取失序文本中的目标字符串的设备示意图;
图3示出根据本发明另一个方面用于获取失序文本中的目标字符串的方法流程图;
图4示出根据本发明一个优选实施例的用于获取失序文本中的目标字符串的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面用于获取失序文本中的目标字符串的设备示意图。失序文本处理设备1包括文本获取装置11、排列组合装置12和匹配查询装置13。在此,失序文本处理设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
具体地,文本获取装置11获取待处理的失序文本。更具体地,文本获取装置11定期或应事件触发实时地获取待处理的失序文本,例如通过实时监听用户通过用户设备提交的失序文本提交请求,以获取用户输入的失序文本,或者定期地通过约定的通信方式直接从第三方设备读取该失序文本。在此,所述“失序文本”意指非正常地按照人们通常阅读的顺序书写,但人们能够识别的失序有规律的文字内容,包括但不限于竖行文本,斜行文本,S行文本等。例如,假设失序文本处理设备1为网络论坛服务器,用户通过用户设备在网络论坛网页的输入界面输入一段竖行文本信息,然后,用户设备将该信息作为论坛发帖包装成http请求并通过http通信协议提交到失序文本处理设备1的文本获取装置11,接着,文本获取装置11通过实时监听用户消息,接收并解析该http请求,获取其中的竖行文本信息。再如,文本获取装置11按一定周期,定期地通过调用设定的应用编程接口(API)向第三方设备发送获取失序文本的请求,并接收该第三方设备基于该请求返回的竖行文本的文档。本领域技术人员应能理解上述获取失序文本的方式仅为举例,其他现有的或今后可能出现的获取失序文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110264447.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种塑料传送成型装置
- 下一篇:用于确定行为相关质量信息的方法、装置和设备