[发明专利]一种文本过滤方法及文本过滤系统有效
申请号: | 200910211715.0 | 申请日: | 2009-11-10 |
公开(公告)号: | CN102053993A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | 温新赐;叶长程 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 过滤 方法 系统 | ||
技术领域
本申请涉及互联网应用技术领域,特别是涉及一种文本过滤方法及文本过滤系统。
背景技术
随着互联网的不断发展,网络上的信息量日益剧增,而互联网的开放性也导致在网络中存在很多不良信息,因此在互联网上,对信息进行监控和过滤的已经成为普遍需求。
应用内容过滤技术,可以实现对网上不良信息的过滤,从而保障网络环境的安全。网络上的信息有多种表现形式,其中文本形式是最为常见的一种。文本过滤指的是从大量文本信息中找出特定文本的过程,目前,常见的文本过滤方法都是基于基本关键词匹配技术实现的:系统根据预先设置的多个与不良信息相关的关键词,在输入文本中进行查找,如果在输入文本中发现与关键词相匹配的内容,则对这部分内容或全部的输入文本进行过滤或替换处理。
上述文本过滤方法,只能过滤出与关键词完全匹配的文本,但是却无法判断整个文本的立场或态度,例如,在电子商务网站中,将“窃听器”定义为过滤关键词,但是现有的文本过滤方法会将“禁止销售窃听器”这样的合法文本也视为不良信息进行过滤。可见,现有的基于基本关键词匹配技术的文本过滤方法,识别正确率较低,无法满足信息过滤的实际应用需求。
发明内容
为解决上述技术问题,本申请实施例提供一种文本过滤方法及文本过滤系统,以提高文本过滤的正确率,技术方案如下:
本申请提供一种文本过滤方法,包括:
预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配;
如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。
本申请还提供一种文本过滤系统,包括:
关键词存储单元,用于存储预先定义的语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
基本查找单元,用于在所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
语义匹配单元,用于在所述基本查找单元在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容时,进一步对查找到的文本内容进行语义匹配;所述语义匹配单元包括:用于根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配的逻辑匹配子单元;
过滤处理单元,用于在所述语义匹配单元匹配成功时,对匹配成功的文本内容进行过滤处理。
本申请所提供的文本过滤方法及系统,使用基本关键词和逻辑关系符结合的方式对文本内容进行过滤,与现有技术相比,能够有效地结合基本关键词在整个文本中的语义进行过滤,提高过滤的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的文本过滤方法流程图;
图2为本申请实施例的基本关键词树形存储结构示意图;
图3为本申请实施例的基本关键词查找方法流程图;
图4为本申请实施例的文本过滤系统的结构示意图;
图5为本申请实施例的基本查找单元的一种结构示意图;
图6为本申请实施例的基本查找单元的另一种结构示意图;
图7为本申请实施例的语义匹配单元的一种结构示意图。
具体实施方式
现有的文本过滤方法,仅根据简单关键词进行过滤,并且不具备逻辑分析能力,因此会存在很多误报情况。例如前文提到的“禁止销售窃听器”文本,虽然包含关键词“窃听器”,但是结合“禁止”这一否定词,又使得该段文本实际上成为合法信息而不应被过滤处理。针对这一问题,本申请实施例提供一种文本过滤方法如下:
预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910211715.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动追踪照准平台
- 下一篇:基于角锥棱镜轴系径向跳动的测量装置