[发明专利]基于人名起源分类的人名音译方法有效

专利信息
申请号: 201210566217.X 申请日: 2012-12-24
公开(公告)号: CN103020046A 公开(公告)日: 2013-04-03
发明(设计)人: 赵铁军;李婷婷;张春越;曹海龙 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 王艳萍
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 人名 起源 分类 音译 方法
【权利要求书】:

1.基于人名起源分类的人名音译方法,其人名起源分类特征、方法和多系统融合方法按照以下步骤进行:

一、人名起源分类:

根据人名起源特征模板采用logistic回归模型,进行计算:

P(Y=k|x)=exp(wk*x)1+Σk=1K-1exp(wk*x),]]>k=1,2,...,K-1                        公式一

P(Y=K|x)=11+Σk=1K-1exp(wk*x)]]>公式二

公式一和公式二中K的值是6,Y为1-6,其中1表示中国,2表示英美,3表示阿拉伯,4表示俄国,5表示日本,6表示韩国,x为人名起源特征模板,P表示起源的概率,w是特征的权重向量;

步骤一中所述的人名起源特征模板为中文人名起源特征模板或英文人名起源特征模板;

中文人名起源特征模板为语言模型、字的TF-IDF、长度和姓氏;

语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型,所述整合n-gram模型是防止该类特征数量过于庞大,而基于最小方差将n-gram的概率特征值划分到1-100个区间上,形成100个特征;长度为汉字字符数;姓氏为姓氏置信度,姓氏置信度为姓氏出现的次数除以出现的总次数所得的商;

字的TF-IDF为“名”单字TF和“名”单字IDF,根据人名语料统计出人名常用字并记录每个常用字的字频,得到6类人名常用字表,然后用下面的两个公式计算TF和IDF:

TFi=xiΣi=1i=Nxi]]>公式三

IDFi=log26DFi]]>公式四

在公式三及公式四中,x代表第i个字在训练语料中的字频,分母是字表中所有字在训练语料中全部的出现次数,N代表字表中字的个数,DF表示包含i的人名起源类别数;

英文人名起源特征模板为字符语言模型、音节的语言模型、音节的TF-IDF和长度,

语言模型为整合2-gram模型、整合3-gram模型和整合4-gram模型,音节的语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型,所述整合n-gram模型是防止该类特征数量过于庞大,而基于最小方差将n-gram的概率特征值划分到1-100个区间上,形成100个特征;长度为字符个数和音节个数,并且采用下述的方法将英文切分成音节:

1、将‘x’替换成‘ks’;

2、{a,o,e,i,u}是基本的元音字符,y如果在辅音后面当作元音处理;

3、当‘w’前面是‘a,e,o’且后面不是‘h’的时候,‘w’和之前的元音当作一个新的元音符号;

4、除了{iu,eo,io,oi,ia,ui,ua,uo}外,其余的连续的元音当作一个新的元音符号处理;

5、将挨着的辅音分开,将元音和紧跟着的辅音分开;

6、辅音和其后的元音形成一个音节,其他的孤立元音和辅音作为单独的音节;

音节的TF-IDF为音节的TF和音节的IDF,根据人名语料统计出人名常用音节并记录每个常用音节的频率,得到6类人名常用音节表,然后用下面的两个公式计算TF和IDF:

TFi=xiΣi=1i=Nxi]]>公式三

IDFi=log26DFi]]>公式四

在公式三及公式四中,x代表第i个字在训练语料中的音节的频率,分母是字表中所有音节在训练语料中全部的出现次数,N代表字表中音节的个数,DF表示包含i音节的人名起源类别数;

二、线性插值系统融合:

公式五

Q(0,$)=0                          公式六

Q(t,p)=maxt,tt-4tt{φ(xt+1t,p,p)+Q(t,p)}]]>公式七

Q(T+1,$)=maxp{φ($,p,$)+Q(T,p)}]]>公式八

公式六、公式七和公式八中T代表的是翻译结果,P代表的是翻译的结果概率,t代表翻译到源语言的第几个位置,在公式五中,λi代表S属于起源i的概率,公式五是多系统融合的策略,公式六、七、八是解码算法。

2.根据权利要求1所述的基于人名起源分类的人名音译方法,其特征在于步骤一所述中文人名起源特征模板中采用SRILM工具训练语言模型,其中每个n-gram都有概率,n为1、2或3,统计所有n-gram概率的一维分布,根据这个分布划分出100个区间,这100个区间是对n-gram特征的一个聚类,每个区间代表一个类别,每个区间内的方差和最小,区间平均值间的方差和最大,利用n-gram的数据求100个区间的分界点:

λ=argminλ(0.7*ΣxiXj(xi-yj)2-0.3*Σi=199(yi-yi+1)2)]]>公式九

公式九中λ代表100个分界点的集合,xi代表每一个n-gram的概率值,yj代表第j个分界区间的平均值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210566217.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top