[发明专利]韵律结构预测方法和装置有效
申请号: | 201510324535.9 | 申请日: | 2015-06-12 |
公开(公告)号: | CN104867490B | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 陈志杰;李秀林 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L15/08;G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 韵律 结构 预测 方法 装置 | ||
1.一种韵律结构预测方法,其特征在于,包括:
对无标注数据进行学习获得词语的词向量;
对所述词语的词向量进行聚类,获得所述词向量的聚类特征;
将所述词向量的聚类特征加入从标注数据提取的特征集合中;
对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型;
通过所述韵律结构预测模型进行韵律结构预测。
2.根据权利要求1所述的方法,其特征在于,所述对无标注数据进行学习获得词语的词向量包括:
通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。
3.根据权利要求1所述的方法,其特征在于,所述对所述词语的词向量进行聚类,获得所述词向量的聚类特征包括:
对所述词语的词向量进行聚类;
获得聚类后的每个类别的类中心向量;
计算给定的词语的词向量与所有类中心向量的余弦相似度;
判断所述余弦相似度中最大的余弦相似度是否大于预先设置的阈值;
如果是,则确定所述给定的词语的词向量的聚类特征为所述最大的余弦相似度所对应的类别符号。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型包括:
通过监督学习的方式对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。
5.一种韵律结构预测装置,其特征在于,包括:
学习模块,用于对无标注数据进行学习获得词语的词向量;
聚类模块,用于对所述学习模块获得的所述词语的词向量进行聚类,获得所述词向量的聚类特征;
添加模块,用于将所述聚类模块获得的所述词向量的聚类特征加入从标注数据提取的特征集合中;
训练模块,用于对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型;
预测模块,用于通过所述训练模块获得的韵律结构预测模型进行韵律结构预测。
6.根据权利要求5所述的装置,其特征在于,
所述学习模块,具体用于通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。
7.根据权利要求5所述的装置,其特征在于,所述聚类模块包括:
词向量聚类子模块,用于对所述词语的词向量进行聚类;
获得子模块,用于获得所述词向量聚类子模块聚类后的每个类别的类中心向量;
计算子模块,用于计算给定的词语的词向量与所述获得子模块获得的所有类中心向量的余弦相似度;
判断子模块,用于判断所述计算子模块获得的余弦相似度中最大的余弦相似度是否大于预先设置的阈值;
特征确定子模块,用于当所述判断子模块确定所述最大的余弦相似度大于预先设置的阈值时,确定所述给定的词语的词向量的聚类特征为所述最大的余弦相似度所对应的类别符号。
8.根据权利要求5-7任意一项所述的装置,其特征在于,
所述训练模块,具体用于通过监督学习的方式对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510324535.9/1.html,转载请声明来源钻瓜专利网。