[发明专利]用于消除语言转换中的多个读法的歧义的方法有效

专利信息
申请号: 201210287345.0 申请日: 2012-08-13
公开(公告)号: CN102982021A 公开(公告)日: 2013-03-20
发明(设计)人: 布伦特·D·拉梅尔斯;戴王·K·奈克;道格拉斯·R·戴维森;亚内斯·G·A·多尔芬;朴佳 申请(专利权)人: 苹果公司
主分类号: G06F17/28 分类号: G06F17/28;G06F17/30
代理公司: 北京律盟知识产权代理有限责任公司 11287 代理人: 刘国伟
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 消除 语言 转换 中的 读法 歧义 方法
【说明书】:

技术领域

发明涉及语言转换,尤其涉及消除语言转换中的多个读法的歧义。

背景技术

例如N元语法模型的统计语言模型通常用以通过使用概率分布将概率Pr(W)指配给一序列字W来将一种语言转换或翻译成另一种语言。这些语言模型通常是从一大堆文本(称作语料库)训练且,一般地,俘获每一个字的出现频率和/或语料库内的两个或两个以上字的每一序列。按照惯例,通过训练语言模型而不管语言模型在每一特定上下文中的用法和/或读法来考虑语料库中的特定字的出现。虽然语料库中的大多数字且一般地各自与一种意义相关联且可能地与一个以上正确发音相关联,但是某些字是以完全相同方式书写而具有不同意义和发音/读法(即,同形异音异义词)。举例来说,英文语言中的同形异音异义词的实例为“desert”,其在一种上下文和用法/发音中意味“抛弃”且在另一种上下文和用法/发音中意味“干燥的荒芜陆地区域”。因此,通过考虑字“desert”的频率而不管字“desert”在语料库中的用法的上下文,常规语言模型最可能看漏第一种含义(“抛弃”)和第二种含义(“干燥的荒芜陆地区域”)的字的使用频率的任何差别。

拼音是使用罗马字母表抄录中国国语的标准方法。在拼音音译中,将中文字符的语音发音/读法映射到由罗马字母组成的音节。拼音通常用以经由转换系统将中文字符输入到计算机中。这种系统常常并有统计语言模型以改进转换准确度。某些中文字符具有多个发音/读法(即,同形异音异义中文字符)。然而,并不区别同形异音异义词的不同发音/读法的常规语言模型有时可产生用于与同形异音异义中文字符相关联的拼音的不合需要的中文转换候选者。

发明内容

本发明的一个实施例涉及一种方法。所述方法包括在包括存储器和一个或一个以上处理器的装置处:接收待转换成一组字符的输入数据,所述组字符包括所述输入数据在目标符号系统中的符号表示;以及使用区别所述目标符号系统的同形异音异义字符的第一读法与第二读法的语言模型,以确定所述同形异音异义字符表示所述输入数据的对应部分的相应概率。

本发明的另一实施例涉及一种电子装置。所述电子装置包括:输入接收单元,其经配置以接收待转换成一组字符的输入数据,所述组字符包括所述输入数据在目标符号系统中的符号表示;以及耦合到所述输入接收单元的转换单元,所述转换单元经配置以使用区别所述目标符号系统的同形异音异义字符的第一读法与第二读法的语言模型,以确定所述同形异音异义字符表示所述输入数据的对应部分的相应概率。

附图说明

在以下详细描述和附随图式中揭示本发明的各种实施例。

图1为用于语言转换的系统的实施例的图。

图2为展示经配置以将输入数据转换成目标符号表示的输出的装置的实施例的图。

图3为展示执行语言转换的程序的实施例的流程图。

图4A展示在语料库中发现的一序列文本的实例。

图4B展示存储于从语料库训练的语言模型处的一些数据的实例,图4A的文本是从所述语料库发现。

图5为展示用于建立已加以注释的语料库的系统的实施例的图,所述已加以注释的语料库待用以训练待用于语言转换的语言模型。

图6为展示用于对语言模型加以注释并使用语言模型的程序的实施例的流程图。

图7A为展示句子702和句子704的实例,句子702呈现于不包含关于同形异音异义字符的注释的语料库中,句子704呈现于确实包含关于同形异音异义字符的注释的语料库中。

图7B为展示句子710和句子712的实例,句子710呈现于不包含关于同形异音异义字符的注释的语料库中,句子712呈现于确实包含关于同形异音异义字符的注释的语料库中。

图8A展示使用未加以注释以用于同形异音异义字符的中文字符语料库(“不具有注释的语料库”)的实例。

图8B展示使用已加以注释以用于同形异音异义字符的中文字符语料库(“具有注释的语料库”)的实例。

图9为展示语言转换的程序的实施例的流程图。

图10为展示用于将拼音转换成中文字符的程序的实施例的流程图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苹果公司,未经苹果公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210287345.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top