[发明专利]基于人名起源分类的人名音译方法有效
申请号: | 201210566217.X | 申请日: | 2012-12-24 |
公开(公告)号: | CN103020046A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 赵铁军;李婷婷;张春越;曹海龙 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 王艳萍 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人名 起源 分类 音译 方法 | ||
技术领域
本发明涉及一种翻译系统。
背景技术
互联网成为人们生活中不可或缺的一部分,它已经是人类信息获取、相互交流、信息传播的一个最重要的途径。我们每天都依靠互联网从中获取需要的生活服务、工作研究等信息。为了能在互联网的海量数据中更快更准更智能的为用户提供信息,信息检索、信息抽取、问答系统等技术成为近年来研究的重点。随着互联网带来的信息交流革命,人们的信息交流和获取已经不单单局限在单一语言中,能够跨语言处理互联网信息已经成为一种迫切需求,这种需要在新闻、金融等领域中显得尤为迫切。因此,机器翻译、跨语言检索、跨语言问答等技术的研究变得越来越重要。在这些研究之中,命名实体的翻译是这些技术的一个重要且基础的问题。人名,作为命名实体的一个重要的组成部分,具有相当强的表达能力,是一篇文档中的关键信息之一。但由于其开放性,人名常常是自然语言处理和机器翻译中未登陆词的主要成分。因此,正确地、自动地翻译人名将是一个有意义的工作,并且对于人工翻译也有一定的指导作用。
人名翻译主要依据发音相似来进行,因此也叫做人名的音译。音译在上世纪90年代开始发展,至今已经有十几年的研究积累,主要有基于音素的和基于字素的两类方法,前者依赖语音学的知识,后者则直接在字素之间建模,而综合使用这两类方法则称之为混合音译方法。具体地,基于音素的音译方法借助一个统一的语音学表示方法作为中间转换轴(这个中间轴的表示符号常称为音素),实现源语言到音素、音素到目标语言的转换,所以该方法也叫中轴法或基于语音的音译方法。基于语音的方法因为需要做字素到音素、音素到字素多步转换,每个转换过程都有可能出错,会使得错误累加。同时该方法依赖于具体的语言,每种语言对用到的中间发音单元不同,每种语言对都需要构建自己的音素表,所以方法是不可扩展的。为了克服基于语音的方法的上述缺点,受到机器翻译中词对齐的启发,研究人员直接对源和目标语言间的字素构建音译模型,这类方法也被称作直接音译或者基于字素的音译方法。后来有研究者综合利用这两类方法,提出了混合音译的方法,将基于字素和语音的音译方法相结合,使用线性插值等多种系统融合方法对两种音译结果进行混合。由于基于字素的方法独立于具体的语言对,并且性能较好,成为音译的主要研究方法。
尽管研究者提出了很多的音译方法,但在影响音译效果的诸多因素中,人名起源还尚未引起足够的重视。以中文人名-英文人名音译为例,注意这里的中文人名指的用中文汉字书写的人名,英文人名指的是用英文字母书写的人名。比如“德川家康”是一个日本起源的人名,它的英文翻译是“Tokugawa Ieyasu”,韩国起源的人名“卢武铉”的音译“Roh Moo-hyun”,这些中文人名的音译(翻译)与通常说的基于发音相似的中-英音译区别很大。因此,如果对这些人名的起源不加以区分,而直接使用训练出来的单一模型对这类人名进行互译则得不到正确结果,同时他们的存在还会影响模型对中、英起源人名的音译。综上,基于人名起源分类的音译研究是一个十分重要的问题。
发明内容
本发明的目的是为了解决中英人名音译中不同起源国家人名的音译模式不一致问题,提供了一种基于人名起源分类的人名音译方法。
基于人名起源分类的人名音译方法按照以下步骤进行:
一、人名起源分类:
根据人名起源特征模板采用logistic回归模型,进行计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210566217.X/2.html,转载请声明来源钻瓜专利网。