[发明专利]词典、分段和语言模型联合优化的系统和迭代方法有效
申请号: | 00815294.2 | 申请日: | 2000-11-03 |
公开(公告)号: | CN1387651A | 公开(公告)日: | 2002-12-25 |
发明(设计)人: | 王海峰;黄常宁;李凯夫;狄硕;蔡东峰;秦立峰;郭建峰 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 吴丽丽 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词典 分段 语言 模型 联合 优化 系统 方法 | ||
本申请要求由本申请的发明人于1999年11月5日提出的临时专利申请No.60/163850,“An iterative method for lexicon,wordsegmentation and language model joint optimization”的优先权。
技术领域
本发明涉及语言建模,更具体地说涉及词典、文字分段和语言模式联合优化的系统和迭代方法。
背景技术
近来计算能力和相关技术的发展促进了新一代强大的应用软件的发展,包括web浏览器、字处理和语音识别应用程序。例如,在输入域名的两三个最初字符之后,最新一代的web浏览器预料统一资源定位符(URL)地址输入。字处理器提供改进的拼写和语法检查能力、字预测和语言转换。较新的语音识别应用程序类似地提供具有令人佩服的识别和预测精度的各种特征。为了对终端用户有用,必须基本实时地实现这些特征。为了提供这种性能,许多应用程序依赖树状数据结构来建立简单的语言模型。
简单地说,语言模式测量任意指定句子的似然性。即,语言模型可获取任意条目的序列(文字、字符、字母等)并估计该序列的可能性。建立现有的语言模式的一种常见途径是根据已知的文本语料库(textual corpus)的训练集合,利用前缀树状数据结构建立N-gram(N字母组)语言模型。
前缀树状数据结构(也叫作后缀树或者PAT树)的使用使高级应用程序能够快速遍历语言模型,提供上面描述的基本实时的性能特征。简单地说,N-gram语言模型计数整个文本中在一个串(大小为N的)内特定项目(文字、字符等)的出现次数。计数值被用于计算该项目串的使用概率。通常,tri-gram(N-gram,这里N=3)方法包括下述步骤:
(a)把文本语料库分成若干项目(字符、字母、数字等);
(b)根据较小的预定词典和简单的预定分段算法,对所述若干项目(例如字符(C))分段(例如分成词(W)),这里在树状数据结构中各个W被映射成一个或多个C;
(c)通过计数字符串的出现次数,根据分离的语料库(corpus)训练语言模型,籍此由前两个词预测一系列词(W1,W2,…WM)的概率:
P(W1,W2,W3,...WM)≈∏P(Wi|Wi-1,Wi-2) (1)
N-gram语言模型在若干方面存在局限。首先,构造前缀树中使用的计数程序非常耗时。从而实际上只能实现较小的N-gram模型(一般为2-gram或者3-gram)。其次,随着N-gram语言模型的串长度(N)的增大,存储前缀树所需的存储器按2N增加。从而,对于大于3(即3-gram)的N-gram来说,存储N-gram语言模型所需的存储器,以及利用较大的N-gram语言模型所需的访问时间非常大。
现有技术的N-gram语言模型倾向于使用固定(较小)的词典,过分简单的分段算法,一般只依赖于前两个单词来预测当前的单词(就3-gram模型而论)。
固定的词典限制了模型选择通用或者专用于任务的最佳单词的能力。如果某一单词不存在于词典中,则就所涉及的模型来说,该单词不存在。从而,较小的词典不可能覆盖预期的语言内容。
分段算法通常较为特别,并且不是以任何统计或语义原理为基础。过于简单的分段算法一般错误地放弃较小的单词而采用较大的单词。从而该模型不能准确地预测包含在语义上可接受的较大字符串内的较小单词。
由于上述限制的结果,使用现有技术词典和分段算法的语言模型往往易于出错。即,在词典或分段阶段中产生的任意错误被传播到整个语言模型内,从而限制了语言模型的准确性和预测属性。
最后,把模型局限于上下文的最多两个在先单词(就3-gram语言模型而论)同样是有限制性的,因为要准确地预测单词的可能性或许需要更多的上下文。语言模型这三方面的局限性通常导致该语言模型的预测质量较差。
从而,需要一种不受通常与现有技术的语言建模技术相关的缺陷和局限性的妨碍,用于词典、分段算法和语言模型联合优化的系统和方法。下面提供恰好如此的一种解决方案。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00815294.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:等分组合式盘子
- 下一篇:高性能透明胶料的制备方法