[发明专利]语音摘要生成模型训练方法、语音摘要生成方法及装置有效
申请号: | 202211687868.4 | 申请日: | 2022-12-28 |
公开(公告)号: | CN115827854B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 王大亮;李昱璇;齐红威;姜丹 | 申请(专利权)人: | 数据堂(北京)科技股份有限公司;河北数云堂智能科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京精金石知识产权代理有限公司 11470 | 代理人: | 廖永耀 |
地址: | 100192 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 摘要 生成 模型 训练 方法 装置 | ||
本发明涉及一种语音摘要生成模型训练方法、语音摘要生成方法及装置,训练方法包括如下步骤:提取样本文本的样本词语集合,以及提取样本音频数据的样本音频特征;将所述样本词语集合、所述样本音频特征进行多模态特征融合,获得多模态特征向量;根据样本文本所归属的领域,获得样本文本的领域权重;将所述领域权重加入所述多模态特征向量;将所述多模态特征向量输入摘要生成模型,通过逐步迭代训练获得最优摘要生成模型。本技术方案的语音摘要生成模型训练方法通过融合音频数据与文本的多模态信息,使生成的语音摘要更精确、重点性更强;并且通过校正多模态特征向量的领域,增强了语音摘要的领域倾向性,修正生成的语音摘要,使语音摘要更精准。
技术领域
本发明涉及计算机技术领域,具体涉及一种语音摘要生成模型训练方法、语音摘要生成方法及装置。
背景技术
语音摘要是一项利用计算机自动从语音文件中提取摘要的技术,应用于会议纪要、演讲摘要、通话录音摘要和语音新闻摘要等多个场景。由于当前语音识别技术能力的限制,无法直接将语音信号转换为质量较高的文本摘要,需要通过自然语言处理技术来弥补不足。而经语音识别后的文本存在口语性强,语气词出现频率高以及易出现表达重复、语法错误等问题,使语音摘要技术存在一定的研究难度,近几年受到了研究学者的广泛关注。
目前,语音摘要的研究大多依赖于文本摘要技术,这些方法通常输入经过语音识别后文本,输出文本内容的对应摘要。然而,语音识别后的文本并不能表现说话人在发音、停顿、语气及流畅度等特点的多种差异,单单通过语音识别系统来提高语音摘要的精确度和可读性是比较困难的。并且,现有的语音摘要生成方法通常是针对特定领域或特定场景的,较少研究出能实现多个领域同样适用的模型,因此并不能满足广泛的应用场景。在具体语音摘要生成的方法上,常采用RNN的生成式摘要模型,利用序列到序列(Sequence-to-Sequence)框架作为模型的基础。但传统的编码器-解码器结构由于上下文向量维度有限,所以在编码固定长度的上下文向量时会损失部分编码信息。并且,由于RNN具有依据时序来输入信息的特征,会导致模型的许多特征损失,故需要对传统编码器-解码器模型做出一定的改进。
对于现有的语音摘要技术,研究方法往往基于文本自动摘要技术中的生成式摘要方法,包括指针生成网络、基于语义相关性的神经网络模型以及基于注意力的编码-解码模型等。随着语音识别技术的发展,语音自动摘要可以结合语音信息中隐含的声韵变化、说话人情绪和场景等相关信息,可以生成更高质量的摘要。
中国专利CN1138085A提出一种语音摘要的智能提取方法,该方法通过获取用户语音,对用户语音进行信号提取,得到语音信号,并提取语音信号的频谱特征;利用预设的语音识别模型对频谱特征进行文本转换,得到语音文本;利用预设的情绪识别模型识别语音文本的情绪特征,并从语音文本中提取情绪特征的第一关键语句;从语音文本中选取符合预设业务规则的第二关键语句;将第一关键语句和第二关键语句进行合并后作为用户语音的关键摘要语句。此外,该发明还涉及区块链技术,所述情绪特征可存储区块链中。然而,这种方法并未融合语音音频与抄本文本的多模态信息,生成的摘要不够精确,重点性不强。
中国专利CN112017632A提出了一种自动化会议记录生成方法,该方法包括:收集音频数据,对音频数据进行预处理,采用DNN算法模型对处理后的数据进行声纹识别,识别说话人;采用翻译模型对处理后的数据进行语音识别,将语音转换为文字,获取文本数据;采用TextRank算法对文本信息进行文本摘要;采用了DCNN模型对文本信息进行句子级情感识别;最后生成会议记录。该自动化会议记录生成方法,可以对会议的音频数据进行音频预处理,通过声纹识别算法识别说话人,然后通过语音识别算法将语音转换成文字,并通过文本摘要算法生成会议摘要,同时通过情绪识别算法识别说话人的情绪,最后生成会议记录,大大节省了人力资源,提高了效率。但是,该方法针对的是对会议记录的语音摘要,适用范围较窄,不能达到领域自适应的要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数据堂(北京)科技股份有限公司;河北数云堂智能科技有限公司,未经数据堂(北京)科技股份有限公司;河北数云堂智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211687868.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种厕所除臭系统及厕所除臭控制方法
- 下一篇:一种灶具燃烧器