[发明专利]基于人名起源分类的人名音译方法有效

申请号：	201210566217.X	申请日：	2012-12-24
公开（公告）号：	CN103020046A	公开（公告）日：	2013-04-03
发明（设计）人：	赵铁军;李婷婷;张春越;曹海龙	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F17/28	分类号：	G06F17/28
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	王艳萍
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于人名起源分类音译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于人名起源分类的人名音译方法，其人名起源分类特征、方法和多系统融合方法按照以下步骤进行：

一、人名起源分类：

根据人名起源特征模板采用logistic回归模型，进行计算：

P(Y=k|x)=exp(wk*x)1+Σk=1K-1exp(wk*x),]]>k＝1，2，...，K-1 公式一

P(Y=K|x)=11+Σk=1K-1exp(wk*x)]]>公式二

公式一和公式二中K的值是6，Y为1-6，其中1表示中国，2表示英美，3表示阿拉伯，4表示俄国，5表示日本，6表示韩国，x为人名起源特征模板，P表示起源的概率，w是特征的权重向量；

步骤一中所述的人名起源特征模板为中文人名起源特征模板或英文人名起源特征模板；

中文人名起源特征模板为语言模型、字的TF-IDF、长度和姓氏；

语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型，所述整合n-gram模型是防止该类特征数量过于庞大，而基于最小方差将n-gram的概率特征值划分到1-100个区间上，形成100个特征；长度为汉字字符数；姓氏为姓氏置信度，姓氏置信度为姓氏出现的次数除以出现的总次数所得的商；

字的TF-IDF为“名”单字TF和“名”单字IDF，根据人名语料统计出人名常用字并记录每个常用字的字频，得到6类人名常用字表，然后用下面的两个公式计算TF和IDF：

TFi=xiΣi=1i=Nxi]]>公式三

IDFi=log26DFi]]>公式四

在公式三及公式四中，x代表第i个字在训练语料中的字频，分母是字表中所有字在训练语料中全部的出现次数，N代表字表中字的个数，DF表示包含i的人名起源类别数；

英文人名起源特征模板为字符语言模型、音节的语言模型、音节的TF-IDF和长度，

语言模型为整合2-gram模型、整合3-gram模型和整合4-gram模型，音节的语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型，所述整合n-gram模型是防止该类特征数量过于庞大，而基于最小方差将n-gram的概率特征值划分到1-100个区间上，形成100个特征；长度为字符个数和音节个数，并且采用下述的方法将英文切分成音节：

1、将‘x’替换成‘ks’；

2、{a，o，e，i，u}是基本的元音字符，y如果在辅音后面当作元音处理；

3、当‘w’前面是‘a，e，o’且后面不是‘h’的时候，‘w’和之前的元音当作一个新的元音符号；

4、除了{iu，eo，io，oi，ia，ui，ua，uo}外，其余的连续的元音当作一个新的元音符号处理；

5、将挨着的辅音分开，将元音和紧跟着的辅音分开；

6、辅音和其后的元音形成一个音节，其他的孤立元音和辅音作为单独的音节；

音节的TF-IDF为音节的TF和音节的IDF，根据人名语料统计出人名常用音节并记录每个常用音节的频率，得到6类人名常用音节表，然后用下面的两个公式计算TF和IDF：

TFi=xiΣi=1i=Nxi]]>公式三

IDFi=log26DFi]]>公式四

在公式三及公式四中，x代表第i个字在训练语料中的音节的频率，分母是字表中所有音节在训练语料中全部的出现次数，N代表字表中音节的个数，DF表示包含i音节的人名起源类别数；

二、线性插值系统融合：

公式五

Q(0，$)＝0 公式六

Q(t,p)=maxt,t′t-4≤t′≤t{φ(xt′+1t,p′,p)+Q(t′,p)}]]>公式七

Q(T+1,$)=maxp′{φ($,p′,$)+Q(T,p′)}]]>公式八

公式六、公式七和公式八中T代表的是翻译结果，P代表的是翻译的结果概率，t代表翻译到源语言的第几个位置，在公式五中，λ_i代表S属于起源i的概率，公式五是多系统融合的策略，公式六、七、八是解码算法。

2.根据权利要求1所述的基于人名起源分类的人名音译方法，其特征在于步骤一所述中文人名起源特征模板中采用SRILM工具训练语言模型，其中每个n-gram都有概率，n为1、2或3，统计所有n-gram概率的一维分布，根据这个分布划分出100个区间，这100个区间是对n-gram特征的一个聚类，每个区间代表一个类别，每个区间内的方差和最小，区间平均值间的方差和最大，利用n-gram的数据求100个区间的分界点：

λ=argminλ(0.7*Σxi∈Xj(xi-yj)2-0.3*Σi=199(yi-yi+1)2)]]>公式九

公式九中λ代表100个分界点的集合，x_i代表每一个n-gram的概率值，y_j代表第j个分界区间的平均值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210566217.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于超图的图像混合摘要生成方法
下一篇：基于CWD谱峭度的暂态电能质量扰动分类识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于人名起源分类的人名音译方法有效

专利文献下载