[发明专利]音译处理装置、程序、记录媒体及方法有效
申请号: | 201280003171.9 | 申请日: | 2012-02-28 |
公开(公告)号: | CN103140849A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 萩原正人 | 申请(专利权)人: | 乐天株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 章蕾 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音译 处理 装置 程序 记录 媒体 方法 | ||
技术领域
本发明涉及一种音译处理装置、音译处理程序、记录有音译处理程序的计算机可读取的记录媒体及音译处理方法。
背景技术
以前,已知有如下方法:对将某种语言的字符串sn音译为其他语言的字符串tn的音译模式,根据由该某种语言的字符串sn表示的人名是以中文、日文及英文中的哪一个为起源来进行切换,并且使用经切换的模式来进行音译(例如,非专利文献1)。
而且,从以前开始便已知有一种αβ法,该αβ法根据将构成某种语言的字符串sn的字符串或字符(以下称为片段)α覆写为构成其他语言的字符串tn的片段β的覆写概率,算出将该某种语言的字符串sn音译为该其他语言的字符串tn的音译概率(例如,非专利文献2)。
[非专利文献1]Haizhou Li及其他3人编着、“个人姓名的语义音译(Semantic Transliteration of Personal Names)”、2007年6月、p.120-127
[非专利文献2]Eric Brill、及另1人编着、“噪声信道拼写修正的错误模型改良(An improved error model for noisy channel spelling Correction)”、2000年、p.286-293
发明内容
[发明所欲解决的问题]
此处,在非专利文献1的方法中,当不明确由某种语言的字符串sn表示的人名以何种语言为起源时,无法切换音译模式。而且,在非专利文献2的方法中,当不明确某个字符串sn以何种语言为起源时,也无法算出音译概率。因此,在这些方法中,存在无法高精度地确定某种语言的字符串sn是否为其他语言的字符串tn的音译的问题。
本发明是鉴于所述问题而完成的,其目的在于提供一种即便在不明确成为音译对象的字符串以何种语言为起源的情形时,也可相比于以前而高精度地确定所音译的字符串是否为对该对象进行音译而成的音译处理装置、音译处理程序、记录有音译处理程序的计算机可读取的记录媒体、及音译处理方法。
[解决问题的技术手段]
为达成所述目的,本发明的第一态样的音译处理装置的特征在于包括:
生成部,其自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新部,其针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性(likelihood)的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
而且,在第一态样的音译处理装置中,也可为,
还包含将所述K个音译表的加权参数初始化的初始化部,所述K个音译表的加权参数分别表示以与所述K个音译表分别相对应的起源语言为起源的原拼写字符串在所述训练集合中所含的多个原拼写字符串中所占的比例;
所述更新部针对所述训练集合中所含的多个音译对的各者,根据所述K个音译表中所含的该音译概率的所述加权参数的加权平均,分别算出所述原拼写字符串的起源语言为与该音译表相对应的起源语言的起源概率后,以使进而使用该起源概率算出的所述似然函数的期待值最大化的方式,更新所述K个加权参数后,重复进行所述起源概率的算出及所述加权参数的更新。
而且,在第一态样的音译处理装置中,也可为,
所述生成部在生成1个所述覆写表后,使所述所生成的1个覆写表中所含的覆写概率针对所述K个语言中的每一语言而变化,由此生成与所述K个语言相对应的K个覆写表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐天株式会社,未经乐天株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280003171.9/2.html,转载请声明来源钻瓜专利网。