[发明专利]基于web的搭配错误证明有效
申请号: | 200780044668.4 | 申请日: | 2007-12-05 |
公开(公告)号: | CN101568918A | 公开(公告)日: | 2009-10-28 |
发明(设计)人: | J·高;W·B·多兰;H-W·洪;M·周 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈 斌;钱静芳 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 web 搭配 错误 证明 | ||
1.一种由计算系统实现的方法,包括:
将来自文本样本的一个或多个搭配与语料库进行比较;
标识所述搭配在所述语料库中是否是不被赞同的;以及
经由输出设备提供所述搭配是否不被赞同的指示;
其中,将所述搭配与所述语料库进行比较包括使用包括一个或多个所 述搭配中的每一个的一个或多个查询项来执行一个或多个web搜索;
对于对其执行搜索的一个或多个所述搭配中的每一个,对包括所述搭 配的一个或多个查询项中的每一个执行搜索,直到所述查询项中的一个提 供满足用于匹配所述搭配的预选择的阈值的搜索结果,或使用了包括所述 搭配的所有查询项而没有满足所述预选择的阈值为止;并且所述方法还包 括:
用通配符替换所述不被赞同的单词搭配的一个中的各单词中的一个, 以组成一个或多个查询项;
在单词搭配参考中搜索所述查询项;
标识具有替换所述通配符的相对高比例的候选单词的搜索结果;以及
经由所述输出设备提供具有所述候选单词的搜索结果作为可能适当的 单词搭配。
2.如权利要求1所述的方法,其特征在于,所述语料库包括web上的 内容。
3.如权利要求1所述的方法,其特征在于,如果未在所述语料库中找 到搭配,则所述搭配是不被赞同的。
4.如权利要求1所述的方法,其特征在于,所述语料库包括可在网络 上访问的内容。
5.如权利要求1所述的方法,其特征在于,对于对其执行搜索的搭配 中的每一个,如果包括所述搭配的查询项评分不在指示所述查询项在所述 语料库中的模糊匹配的显著存在的预选择的阈值匹配分数之上,则所述搭 配是不被赞同的。
6.如权利要求1所述的方法,其特征在于,所述查询项的至少一个包 括包含所述搭配的句子。
7.如权利要求1所述的方法,其特征在于,所述查询项的至少一个包 括包含所述搭配的简化句子,其中所述简化句子是通过从包括所述搭配的 句子中移除辅助词来形成的。
8.如权利要求1所述的方法,其特征在于,所述查询项的至少一个包 括包含所述搭配的块对。
9.如权利要求1所述的方法,其特征在于,所述查询项的至少一个包 括包含所述搭配的单词对。
10.如权利要求1所述的方法,其特征在于,还包括对所述文本样本 进行词性标注,并且其中与所述语料库进行比较的搭配是从所述文本样本 中选择的,其包括动词-名词搭配、介词-名词搭配、形容词-名词搭配和动 词-副词搭配中的至少一个。
11.如权利要求1所述的方法,其特征在于,所述文本样本采用目标 语言,并且所述方法还包括筛选所述语料库以只将所述搭配与被指示为采 用所述目标语言的内容进行比较。
12.如权利要求1所述的方法,其特征在于,还包括筛选所述文本样 本以确定其是否被指示为示出非母语使用,并且如果所述文本样本被指示 为示出非母语使用,则自动地启动将来自所述文本样本的搭配与所述语料 库进行比较的步骤。
13.如权利要求1所述的方法,其特征在于,所述查询项包括句子模 板、块模板和单词模板中的一个或多个,并且其中具有替换所述通配符的 相对高比例的候选单词的搜索结果是通过将包括所述候选单词的搜索结果 的比例与查询模板权重相乘来评估的,所述句子模板的查询模板权重最高, 所述块模板次之,而所述单词模板最低。
14.如权利要求1所述的方法,其特征在于,所述查询项包括动词-名 词搭配、介词-名词搭配、形容词-名词搭配、和动词-副词搭配中的一个或 多个,并且所述通配符被选择作为动词-名词搭配中的动词、动词-名词搭配 中的名词、介词-名词搭配中的介词、形容词-名词搭配中的形容词、或动词 -副词搭配中的副词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780044668.4/1.html,转载请声明来源钻瓜专利网。