[发明专利]一种文本过滤方法及文本过滤系统有效
申请号: | 200910211715.0 | 申请日: | 2009-11-10 |
公开(公告)号: | CN102053993A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | 温新赐;叶长程 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 过滤 方法 系统 | ||
1.一种文本过滤方法,其特征在于,包括:
预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配;
如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。
2.根据权利要求1所述的方法,其特征在于,
所述基本关键词,以字符为单位,按照树形结构存储于文本过滤系统中;其中,基本关键词的首字符为根节点、末字符为叶子节点,具有相同首字符的基本关键词共用同一个根节点;
所述在输入文本中查找构成所述语义关键词的基本关键词,包括步骤:
获取所述输入文本中的一个字符c1;
以c1为当前字符、以所述树形结构的根节点为当前节点,将当前字符与当前节点进行匹配;
如果当前字符与当前节点匹配成功,且当前节点具有子节点,则将当前字符的后一字符,与当前节点的子节点进行匹配;如果当前字符与当前节点匹配失败,且当前节点具有兄弟节点,则将当前字符与当前节点的兄弟节点进行匹配;重复本步骤;
连接当前节点与根节点得到匹配路径,并根据所述匹配路径上匹配成功的叶子节点确定所查找到的基本关键词。
3.根据权利要求2所述的方法,其特征在于,在将当前字符与当前节点进行匹配之前,还包括:
在字典中查找所述当前字符是否具有原型字符;
如果是,则将其转换为相应的原型字符,并以所述原型字符为当前字符,与所述当前节点进行匹配。
4.根据权利要求1至3任一项所述的方法,其特征在于,
所述语义关键词的构成还包括:过滤条件;
则所述语义匹配还包括:将所述输入文本的属性与所述过滤条件进行匹配。
5.根据权利要求1至3任一项所述的方法,其特征在于,
所述语义关键词的构成还包括:过滤行为;
则所述对所查找到的文本内容进行过滤处理,包括:根据所述过滤行为,对所查找到的文本内容进行过滤处理。
6.一种文本过滤系统,其特征在于,包括:
关键词存储单元,用于存储预先定义的语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
基本查找单元,用于在所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
语义匹配单元,用于在所述基本查找单元在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容时,进一步对查找到的文本内容进行语义匹配;所述语义匹配单元包括:用于根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配的逻辑匹配子单元;
过滤处理单元,用于在所述语义匹配单元匹配成功时,对匹配成功的文本内容进行过滤处理。
7.根据权利要求6所述的系统,其特征在于,
所述关键词存储单元,以字符为单位,按照树形结构存储所述基本关键词;其中,基本关键词的首字符为根节点、末字符为叶子节点,具有相同首字符的基本关键词共用同一个根节点;
所述基本查找单元,包括:
文本获取子单元,用于获取所述输入文本中的一个字符c1;
字符匹配子单元,用于以c1为当前字符、以所述树形结构的根节点为当前节点,将当前字符与当前节点进行匹配;
如果当前字符与当前节点匹配成功,且当前节点具有子节点,则将当前字符的后一字符,与当前节点的子节点进行匹配;如果当前字符与当前节点匹配失败,且当前节点具有兄弟节点,则将当前字符与当前节点的兄弟节点进行匹配;重复本步骤;
确定子单元,用于连接当前节点与根节点得到匹配路径,并根据所述匹配路径上匹配成功的叶子节点确定所查找到的基本关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910211715.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动追踪照准平台
- 下一篇:基于角锥棱镜轴系径向跳动的测量装置