[发明专利]一种多音字汉字转拼音全拼的方法在审
申请号: | 201910004285.9 | 申请日: | 2019-01-03 |
公开(公告)号: | CN109739369A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 王暖 | 申请(专利权)人: | 上海中畅信息科技有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 上海德悦知识产权代理事务所(普通合伙) 31344 | 代理人: | 吴庆 |
地址: | 201302 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多音字 拼音 汉字 全拼 拼音字典 匹配 汉字拼音 词组 转换 字典 计算机可读 汉字转换 匹配结果 拼音搜索 语音合成 准确率 遍历 句子 | ||
1.一种多音字汉字转拼音全拼的方法,其特征在于:包括以下步骤:
S1:将含声调的汉字拼音字典中的汉字及拼音转换为计算机可读的字典格式,建立汉字拼音库;
S2:将所述汉字拼音库内的多音字及拼音提取汇总,制作多音字拼音库;所述多音字拼音库内包括多音字、多音字拼音、多音字词组及多音字词组拼音;
S3:遍历待转换的汉字词组或句子,判断字符是否为汉字,不是则原样返回;是则从所述多音字拼音库内查询该汉字是否为多音字,找到匹配的多音字词组则返回对应多音字词组拼音,没找到匹配的多音字词组则返回所述汉字拼音库内对应汉字的拼音。
2.根据权利要求1所述的一种多音字汉字转拼音全拼的方法,其特征在于:步骤S2中建立多音字拼音库时,针对带数字的多音字词组,使用通配符表示数字。
3.根据权利要求1所述的一种多音字汉字转拼音全拼的方法,其特征在于:所述汉字拼音库用C#语言定义为Dictionary<string,string>类型。
4.根据权利要求1所述的一种多音字汉字转拼音全拼的方法,其特征在于:步骤S1内所述计算机可读的字典格式中,键名称为汉字,值为拼音。
5.根据权利要求1所述的一种多音字汉字转拼音全拼的方法,其特征在于:所述汉字拼音库内还包括汉字的声调信息,所述声调信息通过声调字符串表示,所述声调字符串设置于汉字拼音后。
6.根据权利要求5所述的一种多音字汉字转拼音全拼的方法,其特征在于:所述声调字符串为数字或声调符号。
7.根据权利要求6所述的一种多音字汉字转拼音全拼的方法,其特征在于:所述声调字符串为数字时,用数字1-4表示一到四声声调,用数字5表示轻声。
8.根据权利要求1所述的一种多音字汉字转拼音全拼的方法,其特征在于:所述多音字拼音库也为计算机可读的格式,其中,键名称为多音字、值为多音字词组列表,多音字词组实体有词组和拼音两个属性。
9.根据权利要求8所述的一种多音字汉字转拼音全拼的方法,其特征在于:所述多音字拼音库用C#语言可定义为Dictionary<string,List<WordInfo>>类型,多音字词组实体WordInfo有Words和PinYin两个字符串类型的属性。
10.根据权利要求1所述的一种多音字汉字转拼音全拼的方法,其特征在于:还包括步骤S4:将步骤S3返回的全拼拼音转换为拼音首字母。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海中畅信息科技有限公司,未经上海中畅信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910004285.9/1.html,转载请声明来源钻瓜专利网。