[发明专利]音频摘要模型训练方法、系统、电子设备和存储介质在审
申请号: | 202111664811.8 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114329039A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 俞凯;吴梦玥;徐薛楠 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F16/635 | 分类号: | G06F16/635;G06F16/64;G06F40/194;G06K9/62;G06N3/08 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 摘要 模型 训练 方法 系统 电子设备 存储 介质 | ||
本发明公开音频摘要模型训练方法、系统、电子设备和存储介质,其中,一种音频摘要模型训练方法,包括:同时训练一个判别器和一个音频摘要模型,其中,所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c,其中,所述条件c用于表征所述音频摘要与所述标注文字的相似度;通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。本申请实施例的方法同时训练一个对于输出文本的风格的判别器和一个音频摘要模型,通过对抗学习,能够迫使音频摘要模型能够输出给定条件的摘要,之后可以通过收集更加风格多变的标注文本,做到更加可控制的、准确的且多样化的音频摘要生成。
技术领域
本发明属于音频摘要模型训练技术领域,尤其涉及音频摘要模型训练方法、系统、电子设备和存储介质。
背景技术
自动音频摘要是一项具有挑战性的任务,需要识别和理解音频内容,然后用自然语言对其进行总结。摘要可能包括声学场景、声音事件、声音属性甚至高层的抽象语义信息。与结构化的标签输出相比,音频摘要与人类处理音频的方式更加相关,适用于自动内容描述或智能人机交互应用。
近年来,音频摘要引起了很多关注。研究人员旨在通过结合预训练和关键词额外输入等方法来提高描述的准确性。然而,与大多数自然语言生成任务一样,音频摘要也存在多样性不足的问题。通过最大似然估计(maximum likelihood estimation,MLE)训练的系统倾向于生成通用的输出,通常是训练语料库中最常见的模式。相比之下,人工标注会用不同的风格来描述相同的音频片段,包括句子结构、措辞选择。
虽然之前的一些工作已经解决了多样性问题,但其中大多数工作在表现出更高多样性的同时,准确性却有所下降。一些工作侧重于生成更具描述性的、内容相关的输出。例如,鼓励系统把“一把刀”而不是“一个金属物体”放在磨刀的音频片段中。这样,当为一个音频生成相同数量的摘要时,由于描述更详细,因此提高了该音频摘要总体的多样性。其他工作努力通过为单个输入生成更多输出来提高多样性。与单输出系统相比,给定相同输入的多个输出导致输入实例具有更高的多样性。对于促进集合多样性的工作,多样性改进带来的摘要准确性下降尤其显著,例如基于GAN的方法。
在音频摘要中,Ikawa等人提出了一种控制输出特异性的系统,即生成的摘要内容的具体程度。逆词频之和被用来当做句子特异性的指标。该工作可以生成具有不同给定特异性的多个摘要。这种统计条件虽然简单明了,但它只捕捉了词频特征,而没有考虑短语和句子结构等模式,可能出现这样的情况:鼓励模型生成不是最通用的表达,但在训练语料库中仍然很常见(即“亚通用”)的表达。
发明内容
本发明实施例提供一种音频摘要模型训练方法和系统和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种音频摘要模型训练方法,包括:同时训练一个判别器和一个音频摘要模型,其中,所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c,其中,所述条件c用于表征所述音频摘要与所述标注文字的相似度;通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。
第二方面,本发明实施例提供一种音频摘要系统,包括:根据本申请任一实施例的音频编码器;根据本申请任一实施例的文本解码器;以及根据本申请任一实施例的判别器。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的音频摘要模型训练方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的音频摘要模型训练方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111664811.8/2.html,转载请声明来源钻瓜专利网。