[发明专利]从查询日志中挖掘新词用于输入方法编辑器有效

专利信息
申请号: 200980139988.7 申请日: 2009-10-04
公开(公告)号: CN102171683B 公开(公告)日: 2017-12-01
发明(设计)人: W·陈;Q·X·李;L·局;Z·陈;D·李;Z·范 申请(专利权)人: 微软技术许可有限责任公司
主分类号: G06F17/20 分类号: G06F17/20;G06F17/00
代理公司: 上海专利商标事务所有限公司31100 代理人: 杨洁
地址: 美国华*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 查询 日志 挖掘 新词 用于 输入 方法 编辑器
【说明书】:

背景技术

输入方法编辑器(IME)是许多计算机中提供的工具,它帮助用户将数据输入到计算机系统中。然而,在IME内部的各种词和语言模型是固定的,且不能用来帮助用户输入新词(包括诸如姓名的术语),这是经常出现的。

尽管直接采用IME来使用新词,定期(例如,每天)自动找出这样的新的且有效的词是个难题。这样的任务需要找出相关新词,而与此同时被自动化。

发明内容

提供本发明内容以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本发明内容不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在以限制所要求保护的主题的范围的任何方式来使用。

简言之,此处讨论的主题的各方面针对从查询日志中挖掘新词(包括汉字短语或集)的技术。新词可被添加(或另外补充)到IME辞典中。

在一方面,查询日志可以通过市场(例如,中国市场)和/或语言来分隔。从该查询集,仅仅保留频繁查询用于将来处理。将来处理可包括基于长度(例如少于两个或多于八个汉字)过滤掉查询,和/或基于查询中的过多无用词来过滤掉查询。处理也可包括过滤掉作为更大查询的子串的查询,例如,除非子串更好地表达了查询的意思(例如由进程判断)。也描述了基于拼音的聚集和过滤,以及过滤掉辞典中已经处理了的查询。

结合附图阅读以下具体实施方式,本发明的其他优点会变得显而易见。

附图简述

作为示例而非限制,在附图中示出了本发明,附图中相同的附图标记指示相同或相似的元素,附图中:

图1是示出了从查询日志中挖掘新词以供输入方法编辑器(IME)使用的的示例组件的框图。

图2是表示确定要从查询日志中挖掘哪些短语的示例步骤的流程图。

图3示出可以将本发明的各方面并入其中的计算环境的说明性示例。

具体实施方式

此处描述的技术的各方面一般指从查询日志数据源获得新短语(或词)以在输入方法编辑器(IME)中使用的机制/方法。尽管此处描述的一些示例针对中文短语/符号(词和字),但应当理解这些只是有用的示例。此处描述的挖掘技术可以用于其他语言,以及为了其他目的。如此,本发明不限于此处所描述的任何特定实施例、方面、概念、结构、功能或示例。相反,此处所描述的实施例、方面、概念、结构、功能或示例中的任一个都是非限制性的,并且本发明一般能够以在计算和数据挖掘方面提供好处和优点的各种方式来使用。

转到图1,示出了新词挖掘机制102,其从查询日志数据源104获取新词(包括包含两个或更多汉字的短语)。在一实施例中,已选择的新词被放到IME辞典106中供IME108使用。注意,让IME辞典固定而将新词加入补充辞典是可行的,然而可以理解,图1只是一个可能的实现。如下所述,新词挖掘机制102利用各种过滤算法来移除任何显示在查询中的“噪声”,并且将不添加已经被辞典106适当处理了的词语等。

一般而言,一个示例实现通过图2所表示的七个一般步骤来为中文IME自动生成新词。一个合适的数据源104是从诸如WindowsLive Search Log的实况搜索生成的查询日志数据。实况搜索日志的范围是每天的数亿事务的数量级。一个实现使用十二个月的查询日志,并通过将十个月的聚集的数据用作训练数据来生成新词并将另两个月的聚集数据作为评估数据集来测试性能,来每天更新新词。

对于中文IME实现,将原始查询日志作为输入,在步骤202,根据不同市场(例如,在中国搜索市场中提交的查询)分隔查询集,仅保留相关市场。使用基于字符集的算法将非中文查询过滤,仅保留中文查询。这些查询由图2余下的示例步骤进行处理,基于训练集提取新词。

在下一步骤204,根据频率将查询分类,使得仅考虑足够频繁的查询,即,具有比阈值高的频率的那些查询。也获得了当前IME辞典中的总的短语集,示例算法过滤掉已经在当前IME辞典中的任何查询。

步骤206指通过长度过滤和分隔查询。更具体地,在中文查询实现中,查询根据长度分类,以过滤掉长度大于八个汉字或小于两个汉字的查询。注意到使用八这个上限是因为一个当前的中文IME不支持长于八的短语(然而,这个长度可以基于在用的IME适当修改)。使用该下限是因为仅具有一个汉字的查询,一般来说,是含糊的。这个步骤也是步骤210前的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200980139988.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top