[发明专利]一种语音转换后文本纠错方法有效

专利信息
申请号: 202010947098.7 申请日: 2020-09-10
公开(公告)号: CN112084775B 公开(公告)日: 2021-09-07
发明(设计)人: 徐涵;许召辉;马翼平;陈年生;范光宇;饶蕾;章弘凯 申请(专利权)人: 中航华东光电(上海)有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/30;G06F16/33;G06K9/62;G10L15/02;G10L15/14;G10L15/26;G10L25/24
代理公司: 上海乐泓专利代理事务所(普通合伙) 31385 代理人: 张雪
地址: 201114 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语音 转换 文本 纠错 方法
【权利要求书】:

1.一种语音转换后文本纠错方法,其特征在于,包括如下步骤:

S100、输入语音信息,进行语音特征提取得到线性预测倒谱系数LPCC,Mel倒谱系数,输出特征向量;

S200、将特征向量输入到隐马尔可夫模型HMM声学模型,输出得到音素信息;

S300、以单个音,两个音,三个音,四个音的方式进行逐音扫描,将各个词先与网络词库T1进行匹配,如果匹配成功,则输出文本,如果匹配失败,则与标准词库T2进行匹配;

S400、将各个词与标准词库T2进行匹配,如果匹配成功,则输出文本结果,如果匹配失败,则继续步骤S500;

S500、对匹配失败的词进行读音判断,对词进行逐字扫描,并进行近似音转换;

S600、将近似音转换后的词重新进行步骤S300和S400;

所述步骤S500中匹配失败的词进行近似音转换重新匹配的次数大于6次时结束匹配,输出匹配失败。

2.根据权利要求1所述的一种语音转换后文本纠错方法,其特征在于:所述网络词库T1为存储有最新流行词的数据库。

3.根据权利要求1所述的一种语音转换后文本纠错方法,其特征在于,所述标准词库T2通过如下方法建立:(1)收集训练语料,将人民日报基本标注语料库作为训练语料;

(2)将训练语料进行逐句扫描,以两标点符号作为短句判断依据,抽取短句进行逐词扫描;

(3)对训练语料按其词性标注对词语进行词性判断,按以下5种词性进行分类,分为副词,名词,动词,形容词,量词,并将这些词直接存入标准词库T2;

(4)以名词,动词,形容词作为中心词进行搭配;

(5)当训练语料到达末尾,则统计各搭配Qi出现的频次Pi,并设定频次判断阈值α为90%,若Pi大于阈值α,则将搭配存入标准词库T2,否则舍弃。

4.根据权利要求1所述的一种语音转换后文本纠错方法,其特征在于:所述步骤S500中的近似音转换包括首字母转换和发音转换。

5.根据权利要求4所述的一种语音转换后文本纠错方法,其特征在于:所述首字母转换具体为若该字的首字母为F或者H,则对该字进行首字母F、H之间的替换,与原来剩下的字进行重新组词。

6.根据权利要求4所述的一种语音转换后文本纠错方法,其特征在于:所述首字母转换具体为若该字的首字母为L、M、N或者R,则进行首字母L、M、N、R之间的替换,与原来剩下的字进行重新组词。

7.根据权利要求4所述的一种语音转换后文本纠错方法,其特征在于:所述发音转换具体为该字的发音存在Z、C、S与Zh、Ch、Sh平翘舌音的转换,则将进行平翘舌音的转换并与原来剩下的字进行重新搭配。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中航华东光电(上海)有限公司,未经中航华东光电(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010947098.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top