[发明专利]音频和文本的同步方法、计算设备及存储介质有效
申请号: | 202011003262.5 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112133309B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 陈梦瑶;唐旺 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G06F40/289;G11B20/10 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 梁倩 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 文本 同步 方法 计算 设备 存储 介质 | ||
1.一种音频和文本的同步方法,包括:
获取待匹配的音频和第一文本,将所述第一文本进行切分得到第一语句集合;其中,识别所述第一文本中包含的指定标点符号的符号位置,依据所述符号位置确定第一切分点,按照所述第一切分点切分所述第一文本,得到第一语句集合;
将所述音频进行切分,得到音频片断集合,对所述音频片段集合中的各个音频片断进行语音识别得到各个片断语句,将各个片断语句组合得到第二文本,获取第二文本对应的字符序列;
依次从所述第一语句集合中提取第一语句,获取第一语句对应的第一字符序列,依据预设窗口从第二文本对应的字符序列中提取第二字符序列,利用编辑距离匹配方式将第一字符序列与第二字符序列进行匹配,依据所述第一字符序列与所述第二字符序列之间的编辑距离矩阵确定与所述第一字符序列相匹配的第三字符序列,建立所述第三字符序列对应的音频片断与第一语句的同步关系;其中,所述第三字符序列为所述第二字符序列的至少一部分序列,在判断得到所述编辑距离矩阵中的最后一行存在矩阵元素值小于预设阈值的矩阵元素的情况下,所述第三字符序列的结束字符为在所述编辑距离矩阵中的最后一行的矩阵元素值小于预设阈值的矩阵元素中矩阵元素值最小的矩阵元素对应的第二字符序列中的字符。
2.根据权利要求1所述的方法,所述将所述音频进行切分,得到音频片断集合进一步包括:
识别所述音频中包含的静默音的起始时间点和结束时间点,依据所述起始时间点和所述结束时间点确定第二切分点,按照所述第二切分点切分所述音频,得到音频片断集合。
3.根据权利要求2所述的方法,所述第二切分点包括:第二初次切分点;
所述识别所述音频中包含的静默音的起始时间点和结束时间点,依据所述起始时间点和所述结束时间点确定第二切分点,按照所述第二切分点切分所述音频,得到音频片断集合进一步包括:
识别所述音频中包含的静默时长超过第一预设时间间隔的静默音的起始时间点和结束时间点,将所述起始时间点和所述结束时间点确定为第二初次切分点;
按照所述第二初次切分点切分所述音频,得到包含有多个音频片断的音频片断集合。
4.根据权利要求3所述的方法,所述第二切分点还包括:第二再次切分点;所述方法还包括:
针对所述音频片断集合中包含有所述静默音的音频片断,依据第二预设时间间隔和/或该音频片断的中点时间点确定第二再次切分点,按照所述第二再次切分点切分该音频片断;其中,所述第二预设时间间隔小于所述第一预设时间间隔;
得到最终的音频片断集合,并记录每个音频片断在所述音频中的起始时间点和结束时间点。
5.根据权利要求1所述的方法,所述将各个片断语句组合得到第二文本,获取第二文本对应的字符序列进一步包括:
按照各个音频片断在所述音频中的先后顺序,组合各个音频片断的片断语句得到第二文本;
获取第二文本包含的所有文字的拼音首字母作为第二文本对应的字符序列,并记录每个音频片断在所述第二文本对应的字符序列中所对应的起始字符和结束字符;
所述获取第一语句对应的第一字符序列具体为:获取第一语句包含的所有文字的拼音首字母作为第一字符序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011003262.5/1.html,转载请声明来源钻瓜专利网。