[发明专利]音频切分方法、装置和电子设备在审
申请号: | 202110007548.9 | 申请日: | 2021-01-05 |
公开(公告)号: | CN112699689A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 胡知维;熊军;陈澈 | 申请(专利权)人: | 虎博网络技术(上海)有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/289;G06F16/332 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 徐丽 |
地址: | 200050 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 切分 方法 装置 电子设备 | ||
本申请提供一种音频切分方法、装置和电子设备,通过将待处理音频数据转换为文本数据,针对文本数据中的每相邻两个语句,计算相邻两个语句之间的语义距离和时间距离,基于语义距离和时间距离对该相邻两个语句进行切分标识的标记,该切分标识可表征是否需要对该相邻两个语句进行切分。最后根据文本数据中每相邻两个语句的切分标识相应地对待处理音频数据进行切分得到多个音频片段。本方案中,在对音频数据进行切分时,综合考虑了语句之间的语义差异和时间间隔,可使得到的不同音频片段间的差异性及音频片段自身的完整性之间达到良好平衡,提高切分的精准性。
技术领域
本发明涉及音频处理技术领域,具体而言,涉及一种音频切分方法、装置和电子设备。
背景技术
在信息时代,随着多媒体技术的发展,音频等多媒体技术成为了最为直接有效的信息传播载体,广泛应用于小说阅读、影音娱乐以及各种演讲等场景。同时在移动互联网时代,由于众多的应用软件与便捷的沟通导致每个人的时间被切碎。然而碎片化时间消费是一个刚需,特别是音频这种场景尤其需要碎片化的阅读和收听,所以针对音频数据的切分显的日益重要。
目前市面上基本没有成熟的自动化音频切分方案,主流的处理方式主要是人工剪辑,鲜有成熟的自动剪辑方案。而人工剪辑的方式,很多基础性的工作都是重复和低价值的。且目前所存在的自动化切分方式中,也往往仅考虑了音频数据语义之间的差异,这种切分方式切分准确率低,难以实现对音频的精准切分。
发明内容
本发明的目的包括,例如,提供了一种音频切分方法、装置和电子设备,其能够使切分得到的不同音频片段间的差异性及音频片段自身的完整性达到良好平衡,提高切分的精准性。
本发明的实施例可以这样实现:
第一方面,本发明提供一种音频切分方法,所述方法包括:
将待处理音频数据转换为文本数据,所述文本数据包含多个语句,各所述语句具有时间信息;
针对每相邻两个语句,计算所述相邻两个语句之间的语义距离和时间距离;
根据所述语义距离和所述时间距离对所述相邻两个语句标记切分标识,所述切分标识用于表征是否需要将该相邻两个语句进行切分;
根据每相邻两个语句的切分标识对所述待处理音频数据进行切分,得到多个音频片段。
在可选的实施方式中,所述根据所述语义距离和所述时间距离对所述相邻两个语句标记切分标识的步骤之后,所述方法还包括:
利用预先训练得到的分类模型判断各所述语句是否为问句类型;
根据所述分类模型的判断结果对所述相邻两个语句的切分标识进行修订。
在可选的实施方式中,所述根据所述分类模型的判断结果对所述相邻两个语句的切分标识进行修订的步骤,包括:
在所述分类模型的判断结果表明所述相邻两个语句中的第一个语句为问句类型,且所述相邻两个语句的切分标识表征需要对该相邻两个语句进行切分时,将所述切分标识修改为表征不需要对该相邻两个语句进行切分的标识。
在可选的实施方式中,所述根据所述语义距离和所述时间距离对所述相邻两个语句标记切分标识的步骤,包括:
将所述语义距离和所述时间距离按不同的权重进行加权处理,得到语义时间距离;
根据基于所述文本数据得到的多个语义时间距离计算得到判断阈值;
比对所述相邻两个语句的语义时间距离和所述判断阈值,根据比对结果对所述相邻两个语句标记切分标识。
在可选的实施方式中,所述根据基于所述文本数据得到的多个语义时间距离计算得到判断阈值的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于虎博网络技术(上海)有限公司,未经虎博网络技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110007548.9/2.html,转载请声明来源钻瓜专利网。