[发明专利]音频隐水印的添加、提取方法和系统在审
申请号: | 202211690668.4 | 申请日: | 2022-12-27 |
公开(公告)号: | CN115985329A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 舒景辰;请求不公布姓名 | 申请(专利权)人: | 上海哔哩哔哩科技有限公司 |
主分类号: | G10L19/018 | 分类号: | G10L19/018;G10L19/02;G10L25/18;G10L25/24 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 邓小玲 |
地址: | 200433 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 水印 添加 提取 方法 系统 | ||
本申请实施例提供了一种音频隐水印的添加、提取方法和系统,包括:获取待合成音频对应的第一波形文件;生成与所述第一波形文件对应的用户数据;对所述第一波形文件进行频域转化,得到第一Mel频谱图;将所述用户数据添加到所述第一Mel频谱图中,得到包含隐水印的第二Mel频谱图;对所述第二Mel频谱图进行还原处理,得到包含隐水印的第二波形文件。通过在合成音频的Mel频谱图中注入隐水印的方式,经过水印提取即可得到原始的用户数据,便于根据用户数据进行溯源,了解数据生产方或使用方等信息,增强对传播的音频内容的监控管理能力较差,和对音频内容进行有效的版权保护,从而避免合成的音频内容不合法的应用,减少合成的音频内容对发音人造成的伤害。
技术领域
本申请实施例涉及音频合成技术领域,尤其涉及一种音频隐水印的添加、提取方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着语音合成技术的飞速发展,语音合成技术被大量应用,例如,语音交互(如智能助手或智能客户),阅读听书(书籍朗读功能),订单播报(如打车软件、餐饮叫号)等。然而,语音合成技术存在如下几个的缺点:
(1)语音合成技术由机器代替人来生成音频数据,可以自由合成包含敏感信息的音频内容并肆意传播,难以对这些音频进行监控管理;(2)语音合成技术的数据采集来源于真实的发音人,极具拟人效果,通常情况下将难以区分是否是发音人的音频,这可能会对发音人带来伤害;(3)声音和音乐著作是受版权保护的,但是互联网时代,制作音频的副本即可进行传播,对于音频的版权保护非常不利。
发明内容
本申请实施例的目的是提供一种音频隐水印的添加、提取方法、系统、计算机设备及计算机可读存储介质,用于解决以下问题:现有方案对传播的音频内容的监控管理能力较差,无法对音频内容进行有效的版权保护,且合成的音频内容可能会对发音人造成伤害。
本申请实施例的一个方面提供了一种音频隐水印的添加方法,包括:
获取待合成音频对应的第一波形文件;
生成与所述第一波形文件对应的用户数据;
对所述第一波形文件进行频域转化,得到第一Mel频谱图;
将所述用户数据添加到所述第一Mel频谱图中,得到包含隐水印的第二Mel频谱图;
对所述第二Mel频谱图进行还原处理,得到包含隐水印的第二波形文件。
可选地,所述获取待合成音频对应的第一波形文件,包括:
响应于接收到的语音合成指令,获取待合成音频对应的第一波形文件。
可选地,所述将所述用户数据添加到所述第一Mel频谱图中,得到包含隐水印的第二Mel频谱图,包括:
基于预置的隐水印生成模型,将所述用户数据添加到所述第一Mel频谱图中,得到所述第二Mel频谱图。
可选地,在所述生成与所述第一波形文件对应的用户数据的步骤之后,还包括:
对所述用户数据进行加密处理。
可选地,所述用户数据包括:用户ID,数字签名和授权周期。
本申请实施例的一个方面又提供了一种音频隐水印的提取方法,包括:
获取待溯源音频对应的包含隐水印的第二波形文件;
对所述第二波形文件进行频域转化,得到包含隐水印的第二Mel频谱图;
对所述第二Mel频谱图进行水印提取,得到与所述第二波形文件对应的用户数据。
可选地,所述获取待溯源音频对应的第二波形文件,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海哔哩哔哩科技有限公司,未经上海哔哩哔哩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211690668.4/2.html,转载请声明来源钻瓜专利网。