[发明专利]一种同义词的过滤方法及装置有效
申请号: | 201611245553.9 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106649816B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 庞伟 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/9535;G06F16/332;G06F16/36;G06F40/247 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同义词 过滤 方法 装置 | ||
1.一种同义词的过滤方法,其特征在于,包括:
生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;
比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;
比对所述第一词和所述第二词的局部特征,获得第二比对结果;
根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。
2.如权利要求1所述的方法,其特征在于,所述生成第一词的第一近邻词集合和第二词的第二近邻词集合之前,还包括:
挖掘出第一查询项和第二查询项,其中,所述第一查询项与所述第二查询项对应有相同的点击文档;
比对所述第一查询项和所述第二查询项,从所述第一查询项和所述第二查询项中分别提取出所述第一词和所述第二词。
3.如权利要求1或2所述的方法,其特征在于,所述生成第一词的第一近邻词集合和第二词的第二近邻词集合,包括:
根据最邻近算法,生成第一词的第一近邻词集合和第二词的第二近邻词集合。
4.如权利要求1所述的方法,其特征在于,所述比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果,包括:
根据拓补数据分析方法,生成所述第一近邻词集合的第一持续性图和所述第二近邻词集合的第二持续性图;
计算所述第一持续性图和所述第二持续性图的相似度,以所述第一持续性图和所述第二持续性图的相似度作为所述第一比对结果。
5.如权利要求4所述的方法,其特征在于,所述计算所述第一持续性图和所述第二持续性图的相似度,以所述第一持续性图和所述第二持续性图的相似度作为所述第一比对结果,包括:
计算所述第一持续性图和所述第二持续性图的环相似度和连通图相似度,以所述环相似度和所述连通图相似度作为所述第一比对结果。
6.如权利要求5所述的方法,其特征在于,所述根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词,包括:
当所述环相似度小于等于预设环相似度值,所述连通图相似度小于等于预设连通图相似度,且所述第二比对结果符合预设条件时,所述第一词和所述第二词为同义词。
7.如权利要求1所述的方法,其特征在于,所述比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果,包括:
计算所述第一近邻词集合与所述第二近邻词集合的杰卡德相似度,以所述杰卡德相似度作为所述第一比对结果。
8.如权利要求1所述的方法,其特征在于,所述比对所述第一词和所述第二词的局部特征,获得第二比对结果,包括:
判断所述第一词和所述第二词是否包括相同的字符串,和/或
判断所述第一词和所述第二词是否包括已确定为同义词的字符串,获得第二比对结果。
9.如权利要求8所述的方法,其特征在于,所述根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词,包括:
当所述第二比对结果为是,且所述第一比对结果满足预设范围时,所述第一词和所述第二词为同义词。
10.一种同义词的过滤装置,其特征在于,包括:
生成模块,用于生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;
第一比对模块,用于比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;
第二比对模块,用于比对所述第一词和所述第二词的局部特征,获得第二比对结果;
确定模块,用于根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611245553.9/1.html,转载请声明来源钻瓜专利网。