[发明专利]从查询日志中挖掘新词用于输入方法编辑器有效
申请号: | 200980139988.7 | 申请日: | 2009-10-04 |
公开(公告)号: | CN102171683B | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | W·陈;Q·X·李;L·局;Z·陈;D·李;Z·范 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/20 | 分类号: | G06F17/20;G06F17/00 |
代理公司: | 上海专利商标事务所有限公司31100 | 代理人: | 杨洁 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 日志 挖掘 新词 用于 输入 方法 编辑器 | ||
1.一种在计算环境中的用于处理查询的日志(104)以获取新词的方法,包括:
在从所述日志获取的查询集中过滤掉(204,212)不频繁的查询;
使用查询到拼音模型来将所述查询集中的查询转换成拼音;
将查询群集为对应于相同拼音的群集;
在每一个具有相同拼音的查询的群集中,按频率来将查询进行分类;
基于每一个群集中的低频率过滤掉查询;以及
除去(204,214)对应于不是新的词的任何查询,包括:
使用词到拼音模型来首先将查询转换为拼音;
使用拼音到词模型将拼音转换成词;以及
如果查询与已转换的词是相同的,则除去这个查询。
2.如权利要求1所述的方法,其特征在于,还包括,通过基于市场,或基于语言,或基于市场和语言两者,将日志分隔成查询集来获取所述查询集。
3.如权利要求1所述的方法,其特征在于,还包括,基于每个查询的长度过滤掉查询。
4.如权利要求3所述的方法,其特征在于,所述查询包括汉字,且其中基于长度过滤掉查询包括过滤掉对应于少于两个汉字的查询,或过滤掉对应于多于八个汉字的查询,或既过滤掉对应于少于两个汉字的查询又过滤掉对应于多于八个汉字的查询。
5.如权利要求1所述的方法,其特征在于,还包括,过滤掉作为较大查询的子串的至少一个查询。
6.如权利要求1所述的方法,其特征在于,还包括,当串的子串代表了所述串时,过滤掉包括所述串的至少一个查询。
7.如权利要求1所述的方法,其特征在于,还包括,基于在至少一个查询中的无用词的计算过滤掉所述至少一个查询。
8.一种在具有查询日志(104)的计算环境中的系统包括,输入方法编辑器(108),以及新词挖掘机制(102),所述新词挖掘机制向所述输入方法编辑器的辞典提供新词,包括通过:
处理来自所述查询日志的查询;
使用查询到拼音模型来将所述查询日志中的查询转换成拼音;
将查询群集为对应于相同拼音的群集;
在每一个具有相同拼音的查询的群集中,按频率来将查询进行分类;
基于每一个群集中的低频率过滤掉查询;以及
丢弃已经被所述输入方法编辑器通过所述辞典处理了的词,包括:
使用词到拼音模型来首先将查询转换为拼音;
使用拼音到词模型将拼音转换成词;以及
如果查询与已转换的词是相同的,则丢弃这个查询。
9.如权利要求8所述的系统,其特征在于,所述查询对应于汉字,且其中所述新词挖掘机制过滤掉少于两个汉字的查询,和多于所述输入方法编辑器的限制的汉字的查询。
10.如权利要求8所述的系统,其特征在于,所述新词挖掘机制评估作为较大串的子串的词,以确定是将所述子串作为代替所述串的新词包括在所述辞典中,还是将所述串代替子串包含在所述辞典中。
11.如权利要求8所述的系统,其特征在于,所述新词挖掘机制进一步基于查询中的无用词执行过滤。
12.一种在计算环境中的用于处理查询的日志(104)以获取新词的方法,包括:
过滤掉(204)从所述日志中获取的查询集中不频繁的查询,
使用查询到拼音模型来将所述查询集中的查询转换成拼音,
将查询群集为对应于相同拼音的群集,
在每一个具有相同拼音的查询的群集中,按频率来将查询进行分类,
基于每一个群集中的低频率过滤掉查询,
过滤掉(206)少于两个汉字的查询,以及
除去对应于不是新的词的任何查询,包括:
使用词到拼音模型来首先将查询转换为拼音;
使用拼音到词模型将拼音转换成词;以及
如果查询与已转换的词是相同的,则除去这个查询。
13.如权利要求12所述的方法,还包括:过滤掉作为不是新词的较大查询的子串的至少一个查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980139988.7/1.html,转载请声明来源钻瓜专利网。