[发明专利]一种机器翻译语料领域识别方法在审
申请号: | 202210803861.8 | 申请日: | 2022-07-07 |
公开(公告)号: | CN115331659A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 王艺宁;胡环环;刘明皓 | 申请(专利权)人: | 合肥群音信息服务有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L21/0208;G10L25/51;G06F40/58 |
代理公司: | 合肥正则元起专利代理事务所(普通合伙) 34160 | 代理人: | 李敏 |
地址: | 230000 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 语料 领域 识别 方法 | ||
1.一种机器翻译语料领域识别方法,其特征在于,包括如下步骤:
步骤一:通过爬虫技术获取互联网语料数据,并通过特定的分类算法对语料元数据进行预处理,进而构建语料知识库;
步骤二:通过安装在室内不同位置的麦克风采集语音数据,对采集的语音数据进行降噪增强处理,消除干扰信号,剔除误差;并将噪声等级和降噪处理时长融合形成降噪处理信息;
步骤三:对降噪处理后的语音数据进行清晰度偏离检测;若清晰度偏离值QX大于偏离阈值,则判定对应语音数据无效,提示用户重新采集语音数据;否则判定对应语音数据有效;
步骤四:通过语音识别模块对判定有效的语音数据进行语音识别产生分析文本,并将分析文本返回至控制器,控制器用于根据分析文本调取语料知识库数据并推送至用户的移动终端;
步骤五:在机器翻译过程中,根据降噪处理信息对当前环境的噪声干扰情况进行评估;若语音干扰系数YR大于干扰阈值,则生成预警信号;以提醒用户当前环境干扰严重,建议更换场所后继续翻译。
2.根据权利要求1所述的一种机器翻译语料领域识别方法,其特征在于,其中,步骤二中对语音数据进行降噪增强处理的具体过程为:
获取语音数据,将语音数据转换为电信号;对转换的电信号进行数字信号处理;通过数字滤波得到电信号的频谱分布,通过数值的大小分析得到电信号的强度分布;进而根据频率与强度区分出噪声信号;
获取对应的噪声信号的周期能量值,并标记为NE1;其中周期能量值是指对接收到的连续多个比特位数据的能量进行累加并求平均所得到的值;根据周期能量值NE1,确定噪声信号的噪声等级为Dg;根据噪声等级Dg确定对应的降噪增益值为Zg;按照降噪增益值Zg对噪声信号进行降噪处理。
3.根据权利要求2所述的一种机器翻译语料领域识别方法,其特征在于,数据库中存储有周期能量值范围与噪声等级的对照表以及噪声等级与降噪增益值的对照表。
4.根据权利要求2所述的一种机器翻译语料领域识别方法,其特征在于,当周期能量值NE1≤能量阈值且持续时长超过预设时长阈值时,则降噪处理结束,将噪声等级和降噪处理时长融合形成降噪处理信息并将降噪处理时长打上时间戳存储至本地数据库。
5.根据权利要求1所述的一种机器翻译语料领域识别方法,其特征在于,步骤三中清晰度偏离值QX的具体计算步骤为:
获取语音数据中每个元音的采集时间,将相邻两个元音的时间差标记为采集间隔Ci,i=1,…,n;若Ci小于间隔阈值,则生成偏离信号;
当监测到偏离信号,自动倒计数,倒计数为D1,D1为预设值;在倒计数阶段继续对偏离信号进行监测,若监测到新的偏离信号,则倒计数自动归为原值,重新按照D1进行倒计数;否则,倒计数归零,停止计数;
统计倒计数阶段偏离信号的出现次数为K1,统计倒计数阶段的长度为Zc;利用公式计算得到语音数据的清晰度偏离值QX,其中g1、g2为系数因子。
6.根据权利要求1所述的一种机器翻译语料领域识别方法,其特征在于,其中,控制器采用NLP算法进行语音训练并输出分析文本对应的结果;NLP算法进行语音训练产生的对应结果储存至语料知识库。
7.根据权利要求4所述的一种机器翻译语料领域识别方法,其特征在于,步骤五中语音干扰系数YR的具体评估步骤为:
采集预设时间内所有的降噪处理信息;对噪声等级和降噪处理时长分配权重,计算得到降噪值ZX;具体为:ZX=Dg×b1+Tg×b2;其中b1、b2为权重因子;Tg为降噪处理时长;将降噪值ZX与降噪阈值相比较;
统计ZX大于降噪阈值的次数占比为Zb;当ZX大于降噪阈值时,获取ZX与降噪阈值的差值并进行求和得到噪声超值CS;利用公式计算得到语音干扰系数YR,其中b3、b4为系数因子。
8.根据权利要求1所述的一种机器翻译语料领域识别方法,其特征在于,步骤一中语料知识库的具体建立过程如下:
S1:语料元数据采集:运用网络爬虫技术,通过配置采集规则和采集模板,从互联网中获取语料相关数据信息,支持通过定时采集和手动触发采集两种方式,将采集到的语料相关数据信息标记为语料元数据;
S2:语料数据预处理:针对语料元数据进行预处理操作,通过配置预处理规则,将语料元数据按照处理规则整合成语料数据,预处理依次包括:提取文字、中文分词、消除杂音、索引处理;
S3:语料知识库配置:对语料元数据初始化后形成语料数据,将语料数据存储到语料库中,同时建立索引库;数据库结合索引库共同形成语料知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥群音信息服务有限公司,未经合肥群音信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210803861.8/1.html,转载请声明来源钻瓜专利网。