[发明专利]语言韵律边界预测方法、装置、系统和存储介质有效
申请号: | 201910492657.7 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110223671B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 潘华山;李秀林 | 申请(专利权)人: | 标贝(深圳)科技有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰;张玮 |
地址: | 518000 广东省深圳市福田区福田街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 韵律 边界 预测 方法 装置 系统 存储 介质 | ||
1.一种语言韵律边界预测方法,包括:
提取文本的嵌入式特征;
分别利用至少两个组件模型中的每个组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界,其中,至少一个组件模型预测对应粒度的任务韵律边界还基于至少一个其他组件模型所预测的任务韵律边界,所述至少一个组件模型比所述至少一个其他组件模型所预测的任务韵律边界的粒度大;以及
至少基于除所述至少一个其他组件模型所预测的任务韵律边界以外的任务韵律边界确定最终韵律边界;
其中,对于所述至少一个组件模型中的每个组件模型,利用该组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界包括:
连接所述嵌入式特征和所述至少一个其他组件模型所预测的任务韵律边界,以获取该对应粒度的关联特征;
基于该对应粒度的关联特征提取该对应粒度的融合特征;
基于该对应粒度的融合特征,利用该组件模型确定所述文本的对应粒度的任务韵律边界。
2.如权利要求1所述的方法,其中,对于除了用于实现最小粒度的韵律边界预测任务的组件模型外的每个组件模型,该组件模型预测所述文本的对应粒度的任务韵律边界是基于所述嵌入式特征和所有比该对应粒度更小粒度的任务韵律边界。
3.如权利要求1或2所述的方法,其中,所述至少基于所述至少一个组件模型所预测的对应粒度的任务韵律边界确定最终韵律边界包括:
合并所述文本的所有粒度的任务韵律边界,以确定所述文本的最终韵律边界。
4.如权利要求1或2所述的方法,其中,所述分别利用至少两个组件模型中的每个组件模型基于所述嵌入式特征预测对应粒度的任务韵律边界包括:
利用第一组件模型基于所述嵌入式特征预测所述文本的第一粒度的任务韵律边界;
利用第二组件模型基于所述嵌入式特征和所述第一粒度的任务韵律边界预测所述文本的第二粒度的任务韵律边界;以及
利用第三组件模型基于所述嵌入式特征、所述第一粒度的任务韵律边界和所述第二粒度的任务韵律边界预测所述文本的第三粒度的任务韵律边界。
5.如权利要求4所述的方法,其中,所述第一粒度是韵律词粒度,所述第二粒度是韵律短语粒度,所述第三粒度是语调短语粒度。
6.如权利要求1或2所述的方法,其中,在所述提取文本的嵌入式特征之前,所述方法还包括:
利用样本数据根据损失函数对所述组件模型进行训练。
7.如权利要求6所述的方法,其中,所述损失函数基于每个组件模型所预测的所述文本的对应粒度的任务韵律边界确定。
8.如权利要求1或2所述的方法,其中,所述组件模型是神经网络组件模型。
9.如权利要求8所述的方法,其中,所述神经网络组件模型包括双向长短期记忆网络和条件随机场模型。
10.如权利要求1或2所述的方法,其中,所述提取文本的嵌入式特征包括:
对所述文本进行分词,以获得字符级特征;
将所述字符级特征进行特征嵌入化处理;
连接所有经特征嵌入化处理的字符级特征,以获得连接特征;以及
基于所述连接特征提取所述文本的嵌入式特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于标贝(深圳)科技有限公司,未经标贝(深圳)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910492657.7/1.html,转载请声明来源钻瓜专利网。