[发明专利]新闻智能播报方法、装置、设备及存储介质在审
申请号: | 202011432581.8 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112541078A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 苏雪琦;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/289;G06F40/284;G06K9/62;G06N3/04;G06N3/08;G10L13/02;G10L13/10 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 智能 播报 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能领域,公开了一种新闻智能播报方法、装置、设备及存储介质。该新闻智能播报方法包括:获取待处理的新闻播报文本;将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量;将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频。本申请能够实现合成带有情绪的新闻播报音频。
技术领域
本发明涉及人工智能领域,尤其涉及一种新闻智能播报方法、装置、设备及存储介质。
背景技术
社交化传媒丰富了新闻形式,金融新闻从传统的新闻主播、电台主播等模式衍生出了更适应新媒体的趣味形式。例如短视频场景、有声电台场景下的财经新闻/科普层出不穷,可见全场景发展已是新闻媒体的主要趋势。全场景播报的核心在于对多元风格化语音合成的支持,而新媒体背景多元化场景下,情绪合成是其取胜的关键。智能语音合成可以一物多用,输入文本,智能合成适应各种平台风格类型的语音,减少对声优的依赖、提高成品产出效率。
现有技术中,由于针对声音情感表现力方面技术建树较少,且语音合成的情感部分尚未达到逼真拟人化,所以当前无法合成带有情绪的新闻播报音频。
发明内容
本发明的主要目的在于解决当前无法合成带有情绪的新闻播报音频的问题。
本发明第一方面提供了一种新闻智能播报方法,包括:
获取待处理的新闻播报文本;
将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量;
将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;
将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频。
可选的,在本发明第一方面的第一种实现方式中,在所述获取待处理的新闻播报文本之前,还包括:
获取语义预测训练样本集合和语义标签集合,并建立样本与标签之间的匹配关系;
对所述预测训练样本集合和语义标签集合进行切分,得到训练样本集合和测试样本集合;
将所述训练样本集合输入预置神经网络模型进行语义预测训练,得到语义预测模型;
将所述测试样本集合输入所述语义预测模型进行模型性能测试,若测试结果为良好,则模型训练结束,否则继续进行模型训练。
可选的,在本发明第一方面的第二种实现方式中,所述所述语义预测模型依次包括特征识别网络、词向量合成网络,所述将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量包括:
对所述新闻播报文本进行分词,得到带词序的多个分词;
将所述各分词依次输入所述特征识别网络进行特征抽取,输出所述各分词对应的词向量和语义权重;
将所述各词向量输入所述词向量合成网络,并根据所述语义权重对所述各词向量进行加权融合,输出相应的语义向量。
可选的,在本发明第一方面的第三种实现方式中,在所述获取待处理的新闻播报文本之前,还包括:
获取语义分类样本,并对所述语义分类样本添加分类标签信息;
对预置决策树模型进行初始化,并将所述语义分类样本与对应的分类标签信息输入所述决策树模型中;
通过所述决策树模型,对所述语义分类样本进行处理,得到所述语义分类样本的分类预测结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011432581.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于目标检测的选择性加密方法
- 下一篇:长文本生成方法、装置、设备及存储介质