[发明专利]一种特定领域的语音识别文本纠错方法、系统和存储介质在审

专利信息
申请号: 202011294715.4 申请日: 2020-11-18
公开(公告)号: CN112489655A 公开(公告)日: 2021-03-12
发明(设计)人: 顾文元;曾祥云;张雪源 申请(专利权)人: 元梦人文智能国际有限公司
主分类号: G10L15/26 分类号: G10L15/26;G10L15/28;G10L15/04;G06F40/232
代理公司: 北京市隆安律师事务所 11323 代理人: 何琦
地址: 中国香港中环夏慤道1*** 国省代码: 香港;81
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 特定 领域 语音 识别 文本 纠错 方法 系统 存储 介质
【说明书】:

发明公开了一种特定领域的语音识别文本纠错方法,包括:获取待纠错的文本序列;使用通用领域语料模型和特定领域语料模型识别文本序列中的每一个文本序列,得到通用领域判定结果和特定领域判定结果;当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,根据通用领域判定结果和特定领域判定结果确定候选词清单;将候选词依次代入文本序列中得到纠正序列;使用通用领域语料模型和特定领域语料模型验证纠正序列,若验证通过,输出纠正序列作为纠正结果。本发明的技术效果:有效防止疑似错误误判;大大减少了需要验证的候选词数量;候选词表更全,查全率高,纠错的准确率高。

技术领域

本发明涉及语音识别纠错,特别涉及一种特定领域的语音识别文本纠错方法、系统和存储介质。

背景技术

近几年技术层面的突破,语音识别的差错率得到大幅降低,目前已经拥有许多应用场景,取得了很好的市场反响。比如智能手机上的语音输入法、智能音箱的语音处理、录音设备的联网转写功能等,都离不开语音识别的助攻。对于典型的语音界面人机交互系统而言,语音识别是最前端的一个模块,经过识别后的文本才能进行自然语言理解与加工处理,从而产生对应的交互返回给用户。

但是,语音识别的结果仍存在不可避免的误差。由于环境噪声、地方口音、设备自身等干扰因素的存在,语音识别转换后的文本段落经常带有一些异常数据,比如同音词、近似音词、错别字等预期之外的错误文本。这样的差错在文本段落中影响是不容小觑的,同音词会带来语义理解的严重偏差,字级别的错误还可能造成分词切分错误,从而导致词性标注、依存关系分析等一系列错误。因此,在语音识别技术瓶颈下,文本纠错成为非常关键的一个环节,良好的纠错能极大地改善输出文本质量。

现有研发语音识别后文本纠错的相关技术问题在于:而现有的技术方案往往依赖于单一的模型进行使用,故导致在实际的使用过程中,一旦遭遇特定领域词汇,纠错效率不能尽如人心,而如果使用特定领域进行优化,则有可能降低在通用词汇上的识别

发明内容

为解决现有技术中存在的由于使用单一模型而导致的误判率较高的问题,本发明提供一种特定领域的语音识别文本纠错方法,包括:

获取待纠错的文本序列;

使用预先训练好的通用领域语料模型识别所述文本序列,得到通用领域判定结果;所述通用领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;

使用预先训练好的特定领域语料模型识别所述文本序列,得到特定领域判定结果;所述特定领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;

当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,判断所述文本序列中存在错误,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单。

将所述通用领域候选词清单和所述特定领域候选词清单中的候选词依次代入所述文本序列中得到纠正序列;

使用所述通用领域语料模型和所述特定领域语料模型验证所述纠正序列,若验证通过,输出所述纠正序列作为纠正结果。

优选地,所述根据所述通用领域判定结果确定通用领域候选词清单包括:

计算预先建立的通用领域词汇表中的词与所述错误字词的通用领域拼音编辑距离集;

获取所述通用领域词汇表中的词与所述错误字词的通用领域最大公共子串集;

根据所述通用领域拼音编辑距离集和所述通用领域最大公共子串集建立所述通用领域候选词清单。

在本技术方案中,通过两种模型分别进行识别,只有当两个模型都认为是错误的情况下,才会将其视为存在错误,可以克服因为对于名词的所述领域判断错误而导致的错误划分,将实际上正确的视为错误的,从而有效防止疑似错误误判。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于元梦人文智能国际有限公司,未经元梦人文智能国际有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011294715.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top