[发明专利]汉语音字转换方法及系统、区分性词典的构建方法有效
申请号: | 201210202471.1 | 申请日: | 2012-06-15 |
公开(公告)号: | CN102750267A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 张劲松;李伟;解焱陆;曹文 | 申请(专利权)人: | 北京语言大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 田勇 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉语 转换 方法 系统 区分 词典 构建 | ||
1.一种汉语音字转换方法,基于区分性词典;其特征在于,所述汉语音字转换方法包括:
根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;
根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。
2.根据权利要求1所述的汉语音字转换方法,其中,所述汉语音字转换方法还包括:
通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建所述区分性词典。
3.根据权利要求2所述的汉语音字转换方法,其中,通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建所述区分性词典具体包括:
根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解码以获得不同的拼音切换方式;
从所述不同的拼音切换方式中确定互信息最大的拼音切换方式;
根据所述互信息最大的拼音切换方式切割与所述训练拼音串对应的文本,并统计切割后的文本以获得新的词典。
4.根据权利要求3所述的汉语音字转换方法,其中,通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建所述区分性词典具体还包括:
对所述训练拼音串和文本间的互信息进行评估;
若评估出的互信息的变化超过预设阈值,则选择新的训练拼音串对所述新的词典进行迭代训练。
5.一种区分性词典的构建方法,其特征在于,所述构建方法包括:
根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解码以获得不同的拼音切换方式;
从所述不同的拼音切换方式中确定互信息最大的拼音切换方式;
根据所述互信息最大的拼音切换方式切割与所述训练的拼音串对应的文本,并统计切割后的文本以获得新的词典。
6.根据权利要求5所述的构建方法,其中,所述构建方法还包括:
对所述训练拼音串和文本间的互信息进行评估;
若评估出的互信息的变化超过预设阈值,则选择新的训练拼音串对所述新的词典进行迭代训练。
7.一种汉语音字转换系统,基于区分性词典;其特征在于,所述汉语音字转换系统包括:
第一生成单元,根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;
路径获得单元,根据统计语言模型对所述字词网格解码,得到概率最大的转换路径以实现汉语音字的转换。
8.根据权利要求7所述的汉语音字转换系统,其中,所述汉语音字转换系统还包括:
词典构建单元,通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建所述区分性词典。
9.根据权利要求7所述的汉语音字转换系统,其中,所述词典构建单元具体包括:
第二生成单元,根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解码以获得不同的拼音切换方式;
方式确定单元,从所述不同的拼音切换方式中确定互信息最大的拼音切换方式;
文本切割单元,根据所述互信息最大的拼音切换方式切割与所述训练拼音串对应的文本,并统计切割后的文本以获得新的词典。
10.根据权利要求7所述的汉语音字转换系统,其中,所述词典构建单元具体还包括:
信息评估单元,对所述训练拼音串和文本间的互信息进行评估;
迭代判断单元,若评估出的互信息的变化超过预设阈值,则选择新的训练拼音串对所述新的词典进行迭代训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210202471.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种植入式压电发电装置
- 下一篇:电力系统数值仿真开放式应用程序接口