[发明专利]单元词替换方法、搜索方法及装置有效
申请号: | 201410171188.6 | 申请日: | 2014-04-25 |
公开(公告)号: | CN105095222B | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 阮淑梨;蒋建;魏洪平;谢庆伟 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 戴燕 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 单元 替换 方法 搜索 装置 | ||
1.一种单元词替换方法,其特征在于,所述方法包括:
对输入的查询语句进行分词,得到所述查询语句的第一单元词;
利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度,对于参考二元词组(WA,WB)的两个单元词WA和WB,所述参考二元词组(WA,WB)的紧密度根据公式计算,其中,T(WA,WB)表示单元词WA和WB之间的紧密度,P(WB|WA)表示单元词WB依赖于单元词WA出现的概率,C(WA,WB)表示单元词WA和WB在语料库的训练文档集合中同时出现的次数,C(WA)表示单元词WA在所述语料库的训练文档集合中出现的总次数;
比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将语料库中的单元词两两组成参考二元词组,并计算所述参考二元词组的紧密度,建立所述二元词组数据库。
3.根据权利要求2所述的方法,其特征在于,在所述计算所述参考二元词组的紧密度之后,还包括:
根据所述参考二元词组的紧密度,对所述语料库的参考二元词组进行分类;
所述二元词组数据库中包括一级词组集合、二级词组集合和三级词组集合;
如果所述参考二元词组的紧密度大于等于第一阈值,则将所述参考二元词组分类到所述一级词组集合;
如果所述参考二元词组的紧密度小于第一阈值且大于等于第二阈值,则将所述参考二元词组分类到所述二级词组集合;
如果所述参考二元词组的紧密度小于第二阈值,则将所述参考二元词组分类到所述三级词组集合。
4.根据权利要求1所述的方法,其特征在于,所述第一单元词的上下文的单元词包括以下至少一种:所述第一单元词的前导词、所述第一单元词的后导词;
所述第一紧密度包括所述第一单元词与所述第一单元词的前导词组成的第一二元词组的紧密度,或者,所述第一单元词与所述第一单元词的后导词组成的第一二元词组的紧密度;
所述第二紧密度包括所述同义词集合中的单元词与所述第一单元词的前导词组成的第二二元词组的紧密度,或者,所述同义词集合中的单元词与所述第一单元词的后导词组成的第二二元词组的紧密度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410171188.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种呈现搜索结果的方法和装置
- 下一篇:一种筛选推广关键词的方法和装置