[发明专利]音频和文本的同步方法、计算设备及存储介质有效
申请号: | 202011003262.5 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112133309B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 陈梦瑶;唐旺 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G06F40/289;G11B20/10 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 梁倩 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 文本 同步 方法 计算 设备 存储 介质 | ||
本发明公开了一种音频和文本的同步方法、计算设备及存储介质,其中,该方法包括:获取待匹配的音频和第一文本,将第一文本进行切分得到第一语句集合;将音频进行切分,得到音频片断集合,对音频片段集合中的各个音频片断进行语音识别得到各个片断语句,将各个片断语句组合得到第二文本,获取第二文本对应的字符序列;依次从第一语句集合中提取第一语句,获取第一语句对应的第一字符序列,依据预设窗口从第二文本对应的字符序列中提取第二字符序列,将第一字符序列与第二字符序列进行匹配,确定与第一字符序列相匹配的第三字符序列,建立第三字符序列对应的音频片断与第一语句的同步关系。该方案实现了对音频片断与语句的同步关系的精准确定。
技术领域
本发明涉及数据处理技术领域,具体涉及一种音频和文本的同步方法、计算设备及存储介质。
背景技术
随着电子书技术的不断发展,用户不仅可以用眼阅读书籍内容,还可以通过播放有声书籍获取书籍内容。其中,通过播放有声书籍获取书籍内容的方式还可称为听书方式,这种听书方式给用户带来了全新的阅读体验。然而对于由真人为书籍录制的音频,很难将音频与书籍文本进行同步,导致无法在音频播放过程中同步显示所读到的语句,当用户听不清或者听不懂音频所读的内容时,由于缺少同步语句的显示便不能很好地理解书籍内容,导致用户体验较差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的音频和文本的同步方法、计算设备及存储介质。
根据本发明的一个方面,提供了一种音频和文本的同步方法,该方法包括:
获取待匹配的音频和第一文本,将第一文本进行切分得到第一语句集合;
将音频进行切分,得到音频片断集合,对音频片段集合中的各个音频片断进行语音识别得到各个片断语句,将各个片断语句组合得到第二文本,获取第二文本对应的字符序列;
依次从第一语句集合中提取第一语句,获取第一语句对应的第一字符序列,依据预设窗口从第二文本对应的字符序列中提取第二字符序列,将第一字符序列与第二字符序列进行匹配,确定与第一字符序列相匹配的第三字符序列,建立第三字符序列对应的音频片断与第一语句的同步关系;其中,第三字符序列为第二字符序列的至少一部分序列。
根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:
获取待匹配的音频和第一文本,将第一文本进行切分得到第一语句集合;
将音频进行切分,得到音频片断集合,对音频片段集合中的各个音频片断进行语音识别得到各个片断语句,将各个片断语句组合得到第二文本,获取第二文本对应的字符序列;
依次从第一语句集合中提取第一语句,获取第一语句对应的第一字符序列,依据预设窗口从第二文本对应的字符序列中提取第二字符序列,将第一字符序列与第二字符序列进行匹配,确定与第一字符序列相匹配的第三字符序列,建立第三字符序列对应的音频片断与第一语句的同步关系;其中,第三字符序列为第二字符序列的至少一部分序列。
根据本发明实施例的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述音频和文本的同步方法对应的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011003262.5/2.html,转载请声明来源钻瓜专利网。