[发明专利]基于OCR技术辅助构建藏汉音译数据集的方法及系统在审
申请号: | 202310466088.5 | 申请日: | 2023-04-26 |
公开(公告)号: | CN116468054A | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 徐晓娜;谭晶;赵悦 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G10L15/06;G10L15/26;G10L21/0208;G06F18/15;G06V30/19 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 马立峰 |
地址: | 100081 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ocr 技术 辅助 构建 音译 数据 方法 系统 | ||
1.基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,具体步骤如下:
提取视频文件源,所述视频文件源为带有中文字幕的藏语视频;
对到所述带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;
对所述长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;
所述视频文件通过OCR技术识别字幕,生成中文文本初文件,对所述中文文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;
利用所述音频数据和所述文本数据构建藏汉音译数据集。
2.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,生成所述文本数据具体步骤如下:
分离后的视频文件通过调用中文OCR识别接口进行字幕识别,处理得到记录每句话开始和结束时间戳的中文翻译文本数据表;
对所述中文翻译文本数据表进行人工检查过滤,修正在OCR识别的过程中错误识别的语句,并去除未识别出的空白文本语句,用于音频切分的语音翻译文本数据表,即文本数据。
3.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,生成所述音频数据的具体步骤如下:
切分长音频,在获取长音频文件后校对时间戳;
通过写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式:节目拼音缩写-句子索引;
手动删除首尾音频段及始末时间戳相差超过30s的短音频;
通过编写脚本,利用SoX工具批量对音频进行重采样处理,统一处理为固定频率单声道音频;
采用音频处理软件进行降噪。
4.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,切分长音频的步骤中,切分后每段音频都在其时间戳基础上前后增加固定数毫秒。
5.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,重采样步骤中,音频采样率为16kHz。
6.基于OCR技术辅助构建藏汉音译数据集的系统,其特征在于,包括:
获取模块,提取视频文件源,所述视频文件源为带有中文字幕的藏语视频;
分离模块,对到所述带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;
音频处理模块,对所述长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;
文本处理模块,所述视频文件通过OCR技术识别字幕,生成中文文本初文件,对所述文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;
构建模块,利用所述音频数据和所述文本数据构建藏汉音译数据集。
7.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统,其特征在于,文本处理模块包括:
字幕识别单元,分离后的视频文件通过调用中文OCR识别接口进行字幕识别,处理得到记录每句话开始和结束时间戳的中文翻译文本数据表;
文本清洗单元,对所述中文翻译文本数据表进行人工检查过滤,修正在OCR识别的过程中错误识别的语句,并去除未识别出的空白文本语句,用于音频切分的语音翻译文本数据表,即文本数据。
8.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统,其特征在于,音频处理模块包括:
时间戳校对单元,切分长音频,在获取长音频文件后校对时间戳;
音频切分单元,通过写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式:节目拼音缩写-句子索引;
音频清洗单元,手动删除首尾音频段及始末时间戳相差超过30s的短音频;
重采样单元,通过编写脚本,利用SoX工具批量对音频进行重采样处理,统一处理为固定频率单声道音频;
批量降噪单元,采用音频处理软件进行降噪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310466088.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用标签制备多肽的方法
- 下一篇:一种高热值大容量高参数的环保燃气锅炉