[发明专利]多音字消歧和韵律控制联合方法、系统以及电子设备有效
申请号: | 202110568660.X | 申请日: | 2021-05-25 |
公开(公告)号: | CN113191143B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 马明;刘宇 | 申请(专利权)人: | 海信视像科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/44;G06N3/04;G06N3/08 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 郭放;许伟群 |
地址: | 266555 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多音字 韵律 控制 联合 方法 系统 以及 电子设备 | ||
1.一种多音字消歧和韵律控制联合方法,其特征在于,所述多音字消歧和韵律控制联合方法包括:
获取待处理文本,以及,文本的词性;
将所述待处理文本转换为字符向量,所述词性转换为词性向量;
将所述字符向量和所述词性向量拼接,得到拼接向量;
通过交替训练策略训练获取联合模型,以及第一组权重和第二组权重,所述联合模型具有多音字消歧分支和韵律预测分支,所述第一组权重对应所述多音字消歧分支,所述第二组权重对应所述韵律预测分支;
所述联合模型包括第一神经网络和第二神经网络,通过联合模型对所述拼接向量进行编码,将所述拼接向量传入所述第一神经网络得到第一句中编码,将所述拼接向量传入所述第二神经网络得到第二句中编码;
按照第一组权重将第一句中编码和第二句中编码求和,得到所述多音字消歧分支中拼接向量的多音加权和;
将所述多音加权和通过第一全连接层,得到多音字的读音概率分布;
通过掩码去除所述多音字的读音概率分布中不正确的读音,得到拼接向量的最终读音预测结果;
按照第二组权重将第一句中编码和第二句中编码求和,得到所述韵律预测分支中拼接向量的韵律加权和;
将所述韵律加权和通过第二全连接层和条件随机场,得到拼接向量的韵律停顿等级;
在通过交替训练策略训练获取联合模型时,第一组权重和第二组权重作为模型参数参与迭代更新;在训练多音字消歧分支时,第二全连层不参与参数更新;在训练韵律预测分支时,第一全连层不参与参数更新;
通过交替训练策略训练获取联合模型,包括:预训练多音字消歧分支,得到预训练权重;将训练数据划分为多组数据;通过单组数据和预训练权重依次训练所述多音字消歧分支和所述韵律预测分支,得到多音字误差和韵律误差;当相邻两组的多音字误差和韵律误差均小于预设误差值时,得到联合模型。
2.根据权利要求1所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述预训练多音字消歧分支,包括:
将训练数据根据预设值迭代训练。
3.根据权利要求1所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述多音字消歧和韵律控制联合方法还包括:
根据韵律停顿等级确定停顿类型,所述停顿类型包括短停顿和一般停顿。
4.根据权利要求3所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述停顿类型通过韵律停顿等级得到的分数值确定,所述分数值score与韵律停顿等级L的关系如下:
score=(N-p)×w+L
式中,p是惩罚参数,N为当前累积的无停顿字数,w是累计无静音长度的权重,L为停顿等级;
若分数值score大于等于第一阈值时,插入一般停顿;
若分数值score小于第一阈值且大于等于第二阈值时,插入短停顿。
5.根据权利要求1所述的一种多音字消歧和韵律控制联合方法,其特征在于,将所述多音加权和通过第一全连接层,得到多音字的读音概率分布,包括:
将所述多音加权和通过第一全连接层,得到第一关键特征;
根据第一关键特征,得到多音字的读音概率分布。
6.根据权利要求1所述的一种多音字消歧和韵律控制联合方法,其特征在于,将所述韵律加权和通过第二全连接层,包括:
将所述韵律加权和通过第二全连接层,得到第二关键特征,所述第二关键特征为条件随机场的输入项。
7.根据权利要求1所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述第一神经网络为双向长短记忆神经网络,所述第二神经网络为卷积神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信视像科技股份有限公司,未经海信视像科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110568660.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于往复旋转式的密封胶用灌装机构
- 下一篇:一种电子宫口检查器