[发明专利]音译处理装置、程序、记录媒体及方法有效
申请号: | 201280003171.9 | 申请日: | 2012-02-28 |
公开(公告)号: | CN103140849A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 萩原正人 | 申请(专利权)人: | 乐天株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 章蕾 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音译 处理 装置 程序 记录 媒体 方法 | ||
1.一种音译处理装置,其特征在于包括:
生成部,其自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新部,其针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
2.根据权利要求1的所述的音译处理装置,其特征在于:
还包含将所述K个音译表的加权参数初始化的初始化部,所述K个音译表的加权参数分别表示以与所述K个音译表分别相对应的起源语言为起源的原拼写字符串在所述训练集合中所含的多个原拼写字符串中所占的比例;
所述更新部针对所述训练集合中所含的多个音译对的各者,根据所述K个音译表中所含的该音译概率的所述加权参数的加权平均,分别算出所述原拼写字符串的起源语言为与该音译表相对应的起源语言的起源概率后,以使进而使用该起源概率算出的所述似然函数的期待值最大化的方式,更新所述K个加权参数后,重复进行所述起源概率的算出及所述加权参数的更新。
3.根据权利要求1或2所述的音译处理装置,其特征在于:
所述生成部在生成1个所述覆写表后,使所述所生成的1个覆写表中所含的覆写概率针对所述K个语言中的每一语言变化,由此生成与所述K个语言相对应的K个覆写表。
4.根据权利要求1或2所述的音译处理装置,其特征在于:
所述生成部在通过使用了1个所述覆写表的αβ法生成1个所述音译表后,使所述所生成的1个音译表中所含的音译概率变化,由此生成与所述K个语言相对应的K个音译表;
所述更新部利用EM演算法更新所述K个音译表的各者中所含的音译概率。
5.根据权利要求1至4中任一项所述的音译处理装置,其特征在于:
所述更新部在借助于所述更新的所述似然函数的期待值的变化量未达特定大小之前重复进行所述更新。
6.根据权利要求1至5中任一项所述的音译处理装置,其特征在于还包含:
受理部,其受理包含所述任意起源语言的拼写的第一字符串、及包含所述特定目标语言的拼写的第二字符串;及
概率输出部,其求出通过使用所述K个音译表的各者而将所述所受理的第一字符串音译为所述所受理的第二字符串的音译概率,并且输出该求出的音译概率。
7.根据权利要求1至5中任一项所述的音译处理装置,其特征在于还包含:
受理部,其受理包含所述任意起源语言的拼写的第一字符串;及
候选输出部,其求出通过使用所述K个音译表的各者而可音译所述所受理的第一字符串的所述特定目标语言的候选字符串、及将该第一字符串音译为该候选字符串的音译概率,并且按照该求出的音译概率由高到低的顺序输出该求出的候选字符串。
8.根据权利要求6或7所述的音译处理装置,其特征在于:
所述受理部受理不包含在所述训练集合的第一字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐天株式会社,未经乐天株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280003171.9/1.html,转载请声明来源钻瓜专利网。