[发明专利]汉语音字转换方法及系统、区分性词典的构建方法有效

申请号：	201210202471.1	申请日：	2012-06-15
公开（公告）号：	CN102750267A	公开（公告）日：	2012-10-24
发明（设计）人：	张劲松;李伟;解焱陆;曹文	申请（专利权）人：	北京语言大学
主分类号：	G06F17/22	分类号：	G06F17/22;G06F17/30
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	田勇
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	汉语转换方法系统区分词典构建
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及音字转换技术领域，特别涉及一种基于区分性词典的汉语音字转换方法及系统、区分性词典的构建方法。

背景技术

拼音是中文汉字的音素串。在很多系统中，拼音到汉字的转换都是其组成的关键部分，如中文的键盘输入，中文的语音识别系统等。由于在中文中大概只有410个不带调拼音，而与其对应的汉字则有6700个，所以如何从同一个拼音中选出其正确的对应汉字，便成了目前的一个研究课题。

目前来看，解决该问题的最好的办法之一是利用统计语言模型来消除同音字词所带来的歧义。统计语言模型的构建，需要解决两个重要的问题：1.词典的选择；2.模型参数的优化。以最常用的三元统计模型为例，可以把词典的选择分为有监督和非监督两类。有监督的方法中词典的构建主要是通过手工编制的。然而中文并没有统一标准的词典，语言学家也许会对上万个词条达成一致，但是其余的字词则会引起很大的争议。由于这个原因，大量的非监督词典构建方法被提出，其中包括了最大似然法词典的构建，基于互信息词典的构建等。与手工词典相比，这些方法证明基于数据驱动的词典构建法在具体应用中，具有同样的可行性，且更节约成本。

对于语言模型的参数优化问题，学者在过去几十年，主要依据的优化准则是最大似然或最小困惑度。在最近几年，为了提高中文语音识别的正确率，一些学者提出区分性训练的方法来优化语言模型。该方法的核心思想为候选字词的相对概率在音字转换中比绝对概率得分更具有对同音字词消歧的作用。在语言模型的训练过程中，根据音字转换的结果来不断调整模型的参数。

但是在实现本发明的过程中，发明人发现现有技术的缺陷在于：在上述传统的方法中，词典的构建主要是通过手工编制，或者从文本中直接获取，词典的构建并没有考虑到拼音串的信息，不能进一步提高音字转换的正确率。

下面列出了对于理解本发明和常规技术有益的文献，通过引用将它们并入本文中，如同在本文中完全阐明了一样。

【参考文献1】Jianfeng Gao,Hai-Feng Wang,Mingjing Li,and Kai-Fu Lee,“A Unified Approach to Statistical Language Modeling for Chinese”,IEEE ICASSP2000,Istanbul,Turkey.June 5-9,2000.

【参考文献2】Lingyun Pan and Changsheng Yang,“An Auto-system For Converting HANYUPINYIN to Chinese Characters”,Journal of Computer,13(4):271-275.

【参考文献3】Ruiqiang Zhang,Zuoying Wang and Jianping Zhang,“Chinese Pinyin-to-Text Translation Technique with Error Correction Used for Continuous Speech Recognition”,Journal ofTsinghua University(Sci&Tech),37(10):9-11,1997.

【参考文献4】Ando,R.and Lee,“Mostly-unsupervised Statistical Segmentation of Japanese:Application to Kanji”,ANLP-NAACL.2000.

【参考文献5】Fuchun Peng,Dale Schuurmans,“Self-Supervised Chinese Word Segmentation”,Proceedings of the 4th International Conference on Advances in Intelligent Data Analysis,p.238-247,September 13-15,2001.

【参考文献6】Zheng Chen,Kai-Fu Lee,Ming-jing Li,“Discriminative training on language model”,In Proc.ISCSLP 2000,Beijing,China,Oct 2000.

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京语言大学，未经北京语言大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210202471.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种植入式压电发电装置
下一篇：电力系统数值仿真开放式应用程序接口

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]汉语音字转换方法及系统、区分性词典的构建方法有效

专利文献下载