[发明专利]获取别称匹配对的方法及装置有效
申请号: | 200810225407.9 | 申请日: | 2008-10-29 |
公开(公告)号: | CN101727464A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 刘珊瑞;张阔 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取 别称 配对 方法 装置 | ||
1.一种获取别称匹配对的方法,其特征在于,包括:
获取互联网中各网页上呈现的内容;
根据预置规则从各网页上呈现的内容中提取包含有别称匹配对的字符串 对,所述预置规则中包含:信息提取符规则或者关键词规则;
对所述包含有别称匹配对的字符串对进行截断,获取别称匹配对;
当所述预置规则为信息提取符规则时,所述提取包含有别称匹配对的字符 串对包括:
判断各网页上呈现的内容中是否包含预置的信息提取符;
如果包含所述信息提取符,判断所述信息提取符内的字符串中是否包含预 置的提取关键词;
如果包含所述关键词,则根据所述信息提取符及所述关键词确定包含有别 称匹配对的字符串对;
当所述预置规则为关键词规则时,所述提取包含有别称匹配对的字符串对 包括:
判断各网页上呈现的内容中是否包含预置的提取关键词;
如果包含所述预置的提取关键词,则根据提取关键词位置及特定标点确定 包含有别称匹配对的字符串对。
2.根据权利要求1所述的方法,其特征在于,所述各网页上呈现的内容 是各网页上呈现的文字内容。
3.根据权利要求1所述的方法,其特征在于,通过以下方式对所述包含 有别称匹配对的字符串对进行截断:
查找所述包含有别称匹配对的字符串对是否存在预置的截断提示符;如果 存在,根据所述预置的截断提示符进行截断;
和/或,查找所述包含有别称匹配对的字符串对中,一字符串的首字是否 在另一字符串中出现;如果出现,根据一字符串首字在另一字符串中出现的位 置进行截断;
和/或,查找所述包含有别称匹配对的字符串对中是否存在空格符;如果 存在,根据所述空格符出现的位置进行截断;
和/或,查找所述包含有别称匹配对的字符串对中是否存在地名;如果存 在,根据地名出现的位置进行截断;
和/或,查询预置词库,所述预置词库用于保存用户使用过的查询词;根 据预置词库中的查询词进行截断。
4.根据权利要求1至3任意一项所述的方法,其特征在于,还包括:
对获取的别称匹配对进行修正。
5.根据权利要求4所述的方法,其特征在于,所述对获取的别称匹配对 进行修正包括:
统计每个别称匹配对出现的次数,根据出现的次数判断获取的别称匹配对 的可信度;
过滤掉可信度低于预置阈值的别称匹配对。
6.根据权利要求4所述的方法,其特征在于,所述对获取的别称匹配对 进行修正包括:
查找获取的别称匹配对中是否存在预置的截断关键词,如果存在,根据预 置的截断关键词对获取的别称匹配对进行再次截断;
或者,查找获取的别称匹配对中是否存在预置的过滤关键词;如果存在, 根据预置的过滤关键词过滤掉错误的别称匹配对。
7.一种获取别称匹配对的装置,其特征在于,包括:
内容获取单元,用于获取互联网中各网页上呈现的内容;
提取单元,用于根据预置规则从各网页上呈现的内容中提取包含有别称匹 配对的字符串对;
截断单元,用于对所述包含有别称匹配对的字符串对进行截断,获取别称 匹配对;
所述提取单元包括:
第一判断子单元,用于判断各网页上呈现的内容中是否包含预置的信息提 取符;如果包含,再判断所述信息提取符内的字符串中是否包含预置的提取关 键词;
第一确定子单元,用于根据所述信息提取符及所述关键词确定包含有别称 匹配对的字符串对;
或者,所述提取单元包括:
第二判断子单元,用于判断各网页上呈现的内容中是否包含预置的提取关 键词;
第二确定子单元,用于包含所述预置的提取关键词时,根据提取关键词位 置及特定标点确定包含有别称匹配对的字符串对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810225407.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务对象数据的验证方法及其装置
- 下一篇:一种文本训练方法和分类方法