[发明专利]音节划分方法和音节划分设备有效
申请号: | 201310252998.X | 申请日: | 2013-06-24 |
公开(公告)号: | CN104239289B | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 李贤华;张姝;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 康建峰,吴琼 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了音节划分方法和音节划分设备。根据本发明的音节划分方法包括对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。 | ||
搜索关键词: | 音节 划分 方法 设备 | ||
【主权项】:
一种适合音译的多音节语言单词的音节划分方法,包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果;其中所述根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分包括:根据所述已知音节的特征概率,计算每种音节划分方式的概率得分;根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度,计算每种音节划分方式的双语得分;根据所述概率得分和所述双语得分,计算所述每种音节划分方式的总得分;其中所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度包括:作为所述对应的单音节语言单词的读音形式与所述每种音节划分方式在字母个数上的相似度的个数相似度、和/或作为所述对应的单音节语言单词的读音形式与所述每种音节划分方式在最短编辑距离上的相似度的距离相似度;并且所述根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度计算每种音节划分方式的双语得分包括:根据所述个数相似度和/或所述距离相似度,计算所述双语得分;其中计算每种音节划分方式中的各个音节与所述对应的单音节语言单词的读音形式中的各个音节之间的在最短编辑距离上的相似度的总和,作为所述距离相似度;其中针对所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数不同的情况,在所述计算相似度的总和的步骤之前,通过在音节个数较小的所述音节划分方式或所述读音形式的末端填充预定符号,使得所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数相同;其中通过如下步骤来得到所述已知音节表:获得作为多音节语言单词的多音节语言字母串、以及对应单音节语言音译文的读音形式;根据所述读音形式,按音节划分所述多音节语言字母串,从而获得所述已知音节;根据划分结果,通过统计来计算所述已知音节的特征概率;其中所述读音形式包括与所述单音节语言音译文中的多个单音节语言字对应的多个读音音节;并且其中所述根据所述读音形式按音节划分所述多音节语言字母串包括:确定与所述多个读音音节对应的多音节语言字母;将所确定的多音节语言字母前的位置确定为多音节语言音节的边界,从而将所述多音节语言字母串按音节划分;其中所述确定与所述多个读音音节对应的多音节语言字母包括:人工对少量多音节语言字母串以及对应的读音形式进行所述确定步骤,以得到训练语料;利用训练语料来训练能够执行所述确定步骤的对齐器;利用训练好的对齐器,对余下的多音节语言字母串以及对应的读音形式进行所述确定步骤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310252998.X/,转载请声明来源钻瓜专利网。