[发明专利]分布式模型的编码和自适应、可扩展访问有效
申请号: | 200780001686.4 | 申请日: | 2007-02-16 |
公开(公告)号: | CN101361065A | 公开(公告)日: | 2009-02-04 |
发明(设计)人: | 弗朗茨·奥奇;杰弗里·迪安;托尔斯滕·布兰奇;亚历山大·弗兰兹;杰伊·彭特;徐鹏;沙-梅恩·特赫;杰弗里·奇恩;艾格纳西欧·塞耶;安顿·卡维尔;丹尼尔·罗萨特;约翰·霍金斯;卡雷尔·德列森 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 郑立;林月俊 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 模型 编码 自适应 扩展 访问 | ||
本申请要求以下两个美国专利申请的权益,并通过引用将其全部 公开包括在此:
2006年2月17日提交的No.60/774,790,名称为“Encoding and Adaptive,Scalable Accessing of Distributed Models”;以及
2006年2月21日提交的No.60/775,570,名称为“Encoding and Adaptive,Scalable Accessing of Distributed Models”。
技术领域
本申请的说明书涉及机器处理,其使用诸如计算机之类的机器来 执行诸如机器翻译的处理任务。
背景技术
机器(诸如计算机和基于计算机的机器)被广泛使用,以使各种 处理任务自动化。由于计算机信息技术和通信技术的进步,正进一步 使过去机器很难处理的某些任务自动化。语言翻译和语音识别是两个 正被自动化的机器处理任务的示例。
可以用各种方式将一种人类语言或自然语言(源自然语言)翻译 成另一种自然语言(目标自然语言)。某人可以通过首先阅读并理解 源自然语言(例如,中文)文本,并接着用目标语言(例如,英语) 写下对应的文本,来人工翻译源自然语言的文本。这样的人工翻译质 量很高,但价格昂贵且速度较慢。机器翻译使用计算机和其他机器来 使部分或全部翻译过程自动化,以降低翻译成本并加快翻译过程。基 于规则的机器翻译和统计(statistical)机器翻译是机器翻译技术的两个 示例。机器翻译系统可易于使用:用户将源自然语言的数字文档发送 到机器翻译系统;系统处理该文档并生成目标自然语言的翻译后文档。 机器翻译在广泛的应用范围中正得到越来越多的使用。例如,在很多 计算机网络(例如因特网)上可取得提供机器翻译的资源,以允许轻 松地访问不同自然语言的信息。
然而,机器翻译系统的翻译质量可能比人工翻译要差,并且有时 机器翻译的文本可能是令人难以或者无法理解的。已经开发了包括统 计机器翻译技术在内的各种机器翻译技术,以提高机器翻译的不同方 面,诸如翻译质量和翻译速度。
发明内容
本说明书描述了分布式机器处理系统、技术、方法、和装置,将 其实现以使用资源分区、复制、和负载平衡来访问大型模型并提供可 扩展和自适应的处理。基于上述技术可构建各种分布式机器处理系统, 包括机器翻译系统、语音识别系统、垃圾邮件检测系统、光学字符识 别系统、拼写校正系统、实体检测系统、信息提取系统等。
在一个方面中,一种系统被描述为包括计算机数据服务器,每个 计算机数据服务器都存储并可操作性地提供数据集合的分区。各个分 区共同构成了数据集合,并且每个分区都小于数据集合。该系统还包 括处理服务器,其可操作性地从数据服务器获取数据,并使用所获取 的数据来处理输入并生成输出。可将系统实现为对每个数据服务器包 括一个或多个副本(replica)数据服务器。在一个实现方式中,数据集 合是关于目标语言的语言模型的数据。语言模型包括目标语言中的n元 模型(n-gram),以及关于n元模型每一元的统计数据。n元模型可以包 括N-元,其中N大于3。处理服务器是可操作性地使用从语言模型中获 取的数据,将输入中的源语言的文本翻译成目标语言的翻译服务器。 可用各种配置来实现处理服务器,例如:语音识别服务器,其可操作 性地使用从语言模型中获取的数据将输入中的目标(源?)语言的人 类语音转换为目标语言的文本;拼写校正服务器,其可操作性地使用 从语言模型中获取的数据对输入中的目标语言的单词的拼写进行校 正;或光学字符识别服务器,其可操作性地使用从语言模型中获取的 数据对输入中的所接收的文档图像中的文本进行识别。
在另一个方面中,一种用于机器翻译的系统可包括机器翻译资源 服务器,以及至少一个翻译服务器。为将源语言翻译成目标语言,每 个机器翻译资源服务器存储并可操作性地提供机器翻译资源数据集合 的分区。各个分区共同构成了机器翻译资源数据的集合,并且每个分 区都小于机器翻译资源数据的集合。翻译服务器可操作性地接收待翻 译成目标语言的源语言的源文本,并且还可操作性地从机器翻译资源 服务器中获取机器翻译资源数据,并使用获取的机器翻译资源数据来 将源文本翻译成目标语言。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780001686.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:有机电致发光显示装置
- 下一篇:无线通信装置