[发明专利]文本对齐方法、装置、计算机设备及存储介质在审
申请号: | 202210411158.2 | 申请日: | 2022-04-19 |
公开(公告)号: | CN114818646A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 张剑;陈青青 | 申请(专利权)人: | 东莞点慧科技有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06K9/62;G10L15/26 |
代理公司: | 东莞恒成知识产权代理事务所(普通合伙) 44412 | 代理人: | 姚伟旗 |
地址: | 523000 广东省东莞市松*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 对齐 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本对齐方法,其特征在于,包括:
获取待对齐文本,对所述待对齐文本进行分句,得到待对齐文本句子,并生成所述待对齐文本句子的参考句子向量;
获取与所述待对齐文本对应的音频数据,对所述音频数据进行语音识别,生成所述音频数据的转录文本,其中,所述转录文本包括至少一个基础段落;
获取所述转录文本的段落信息,作为第一段落信息,并根据所述第一段落信息,生成所述转录文本中每个基础段落的段落向量;
基于所述第一段落信息,确定所述转录文本中每个基础段落的先后顺序,按照所述先后顺序,依次计算每个基础段落的段落向量与所述参考句子向量的向量相似度,得到相似度集合,其中,所述相似度集合中包含每个所述基础段落对应的相似度值;
针对每个所述基础段落,将所述基础段落对应的相似度值与预设的相似度阈值进行比较,得到比较结果,并根据比较结果确定所述待对齐文本对应的基础段落,作为目标文本;
按照所述先后顺序,依次对每个所述目标文本进行汇总,得到所述待对齐文本的目标对齐文本。
2.根据权利要求1所述的文本对齐方法,其特征在于,所述获取待对齐文本,对所述待对齐文本进行分句,得到待对齐文本句子,并生成所述待对齐文本句子的参考句子向量包括:
对所述待对齐文本进行分句,得到待对齐句子集合,所述待对齐句子集合包括至少一个待对齐句子;
通过分词器对所述待对齐句子集合的待对齐句子进行分词,得到分词句子;
基于预训练模型,生成所述分词句子的参考句子向量。
3.根据权利要求1所述的文本对齐方法,其特征在于,所述获取与所述待对齐文本对应的音频数据,对所述音频数据进行语音识别,生成所述音频数据的转录文本包括:
基于说话停顿时长,对所述音频数据进行端点检测,确定每段子音频的开始帧标记与结束帧标记;
将一组开始帧标记与结束帧标记作为一个基础段落,确定所述第一段落信息,并根据所述第一段落信息,对所述音频数据进行分割,得到多段子音频;
对每一段所述子音频进行语音识别,生成带有所述第一段落信息的所述转录文本。
4.根据权利要求1所述的文本对齐方法,其特征在于,所述获取所述转录文本的段落信息,作为第一段落信息,并根据所述第一段落信息,生成所述转录文本中每个基础段落的段落向量包括:
根据所述第一段落信息,对每个基础段落的所述转录文本进行句子分割,得到每个基础段落的转录句子集合;
基于预训练模型,生成每个基础段落中每个所述转录句子的转录句子向量;
对每个基础段落的所述转录句子向量进行求和平均计算,得到每个基础段落的段落向量。
5.根据权利要求1所述的文本对齐方法,其特征在于,在所述获取所述转录文本的段落信息,作为第一段落信息,并根据所述第一段落信息,生成所述转录文本中每个基础段落的段落向量之后,所述方法包括:
通过梅尔倒谱系数,生成所述音频数据在每个基础段落的语音特征向量;
针对每个基础段落,将所述语音特征向量与所述段落向量进行融合,得到融合特征向量。
6.根据权利要求1所述的文本对齐方法,其特征在于,所述基于所述第一段落信息,确定所述转录文本中每个基础段落的先后顺序,按照所述先后顺序,依次计算每个基础段落的段落向量与所述参考句子向量的向量相似度,得到相似度集合包括:
根据所述待对齐文本的待对齐句子顺序,设定当前待对齐句子,并记录当前待对齐句子顺序数;
计算所述当前待对齐句子对应的参考句子向量与所述转录文本每个基础段落的段落向量的向量相似度,得到当前待对齐句子与每个基础段落的相似度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞点慧科技有限公司,未经东莞点慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210411158.2/1.html,转载请声明来源钻瓜专利网。