[发明专利]用于汉字的读音标注方法、装置、电子设备及存储介质在审
申请号: | 201910733674.5 | 申请日: | 2019-08-08 |
公开(公告)号: | CN110619112A | 公开(公告)日: | 2019-12-27 |
发明(设计)人: | 王晨光;刘争辉 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/28;G06N20/00 |
代理公司: | 11237 北京市广友专利事务所有限责任公司 | 代理人: | 祁献民 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉字 读音标注 训练语料 读音 多音字 标注 计算机技术领域 存储介质 电子设备 模型训练 目标语句 注音 搭配 中文 概率 | ||
本发明实施例公开一种用于汉字的读音标注方法、装置、电子设备及存储介质,涉及计算机技术领域,能够为汉字中的多音字进行高效准确的注音。所述方法包括:获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;通过所述读音标注模型,对目标语句标注读音。本发明适用于对中文的读音标注中。
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于汉字的读音标注方法、装置、电子设备及存储介质。
背景技术
汉字注音是拼音输入法的基础。拼音输入法中预先设置有对常见汉字及词语的注音,当用户输入拼音时,能够从字库中调出该拼音对应的汉字或词语,从而完成输入。因此,对于拼音输入法来说,准确的汉字注音相当的重要,只有汉字的注音准确,才能在拼音输入中提供正确的汉字。
然而,由于汉字中存在大量的多音字,即一个汉字对应两种或两种以上读音,在汉字注音中,在一个具体语境下,常常难以确定为一个多音字标注哪个读音。如果注音错误,例如将“睡觉”注音成睡觉(shui jue),那么当用户打“shui jiao”的时候,永远不会出现正确结果。
相关技术中,对于多音字的注音,大多采用多音字白名单的解决方案。即,当遇到多音字时,按照多音字白名单中标注的读音对多音字进行读音标注。然而,由于名单枚举的有限性,常常导致汉字注音不够灵活、准确性差。
发明内容
有鉴于此,本发明实施例提供一种用于汉字的读音标注方法、装置、电子设备及存储介质,能够为汉字中的多音字进行高效准确的注音。
第一方面,本发明实施例提供一种用于汉字的读音标注方法,包括:获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;通过所述读音标注模型,对目标语句标注读音。
可选的,所述基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练包括:统计所述训练语料中,相邻汉字之间的搭配概率;根据所述训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字为多音字,n为大于1的整数;根据所述出现概率最高的可选读音,为所述第n个汉字标注读音,以进行模型训练。
可选的,所述通过所述读音标注模型,对目标语句标注读音包括:对所述目标语句中的汉字初步标注读音,形成读音标注串,其中,所述目标语句中的每个多音字标注有对应的多个可选读音;基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串;将所述多个备选标注串输入所述读音标注模型,以使所述读音标注模型对每个所述备选标注串打分;根据打分结果,选择其中一个备选标注串为所述目标语句标注读音。
可选的,所述目标语句中包括x个多音字,每个多音字具有y个可选读音,其中x为正整数,y为大于1的正整数;所述基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串包括:基于所述多音字的不同可选读音,利用所述读音标注串生成x×y个备选标注串。
可选的,所述根据打分结果,选择其中一个备选标注串为所述目标语句标注读音包括:根据所述读音标注模型对每个所述备选标注串的困惑度打分,选择困惑度打分最低的一个备选标注串为所述目标语句标注读音。
第二方面,本发明的实施例还提供一种用于汉字的读音标注装置,包括:获取单元,用于获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;训练单元,用于基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;标注单元,用于通过所述读音标注模型,对目标语句标注读音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910733674.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种天然径流系列一致性修正方法
- 下一篇:预览iOS特定格式文件的方法和装置