[发明专利]新词识别方法与装置有效
申请号: | 201610322268.6 | 申请日: | 2016-05-16 |
公开(公告)号: | CN107391504B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 周文礼 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/901 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新词 识别 方法 装置 | ||
1.一种新词识别方法,其特征在于,所述方法运用于信息检索系统中的检索设备,所述方法包括:
从所述信息检索系统的历史查询日志中获取单字串;
将所述单字串进行切分,生成候选词汇,所述候选词汇中包括至少两个单字;
从所述历史查询日志中获取与所述候选词汇相关的目标查询日志;
根据所述目标查询日志计算所述候选词汇的统计指标,所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个;
判断所述候选词汇的统计指标是否满足预设规则;
若所述目标查询日志的数量为多个,所述判断所述候选词汇的统计指标是否满足预设规则,包括:
分别计算每个目标查询日志的所述候选词汇的统计指标;去除所述每个目标查询日志的所述候选词汇的统计指标中的异常值,获得所述每个目标查询日志的所述候选词汇的统计指标的正常值;计算所述每个目标查询日志的所述候选词汇的统计指标的正常值的均值;当所述每个目标查询日志的所述候选词汇的统计指标的正常值的均值大于对应的预设阈值时,判断所述候选词汇的统计指标满足预设规则;
或者,分别计算每个目标查询日志的所述候选词汇的统计指标;确定所述每个目标查询日志的所述候选词汇的统计指标中的异常值,并从所述每个目标查询日志中去除对应所述异常值的异常目标查询日志,获得正常目标查询日志;计算所述正常目标查询日志的所述候选词汇的统计指标的均值;当所述正常目标查询日志的所述候选词汇的统计指标的均值大于对应的预设阈值时,判断所述候选词汇的统计指标满足预设规则;
当所述候选词汇的统计指标满足预设规则时,识别所述候选词汇为新词,并将所述候选词汇存储至所述信息检索系统的词特征库中。
2.根据权利要求1所述的方法,其特征在于,若所述目标查询日志的数量为一个,所述判断所述候选词汇的统计指标是否满足预设规则,具体包括:
判断所述候选词汇的各个统计指标是否大于对应的预设阈值;
当所述候选词汇的各个统计指标均大于对应的预设阈值时,判断所述候选词汇的统计指标满足预设规则。
3.根据权利要求1所述的方法,其特征在于,若所述目标查询日志的数量为一个,所述判断所述候选词汇的统计指标是否满足预设规则,具体包括:
计算所述候选词汇的各个统计指标的差值比,所述候选词汇的每个统计指标的差值比为:该统计指标与该统计指标对应的预设阈值的差值的绝对值与所述该统计指标对应的预设阈值的百分比;
当所述候选词汇的各个统计指标的差值比均符合对应的预设标准时,判断所述候选词汇的统计指标满足预设规则。
4.根据权利要求1所述的方法,其特征在于,所述判断所述候选词汇的统计指标是否满足预设规则,具体包括:
分别判断每个目标查询日志中所述判断所述候选词汇的统计指标是否满足预设规则,获得所述每个目标查询日志对应的判断结果;
当表示所满足预设规则的判断结果的数量与所述目标查询日志的数量之比大于预设比例,判断所述候选词汇的统计指标满足预设规则。
5.根据权利要求1所述的方法,其特征在于,在所述识别所述候选词汇为新词之后,所述方法还包括:
根据包含用户行为数据的目标查询日志再次识别所述候选词汇是否为新词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610322268.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有兴趣引导功能的个性化推荐方法
- 下一篇:一种图像处理方法及系统