[发明专利]文本的纠错方法、装置、终端、及存储介质有效
申请号: | 202010308062.4 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111539199B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 郭晗暄;单彦会;李娜;郑文彬;罗红 | 申请(专利权)人: | 中移(杭州)信息技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289;G06F40/30;G06F40/58;G10L15/26;G10L15/04;G10L15/16;G10L15/02;G10L15/22;G06N3/044;G06N3/0455;G06N3/088 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 310011 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 终端 存储 介质 | ||
本发明实施例涉及人工智能领域,公开了一种文本的纠错方法、装置、终端、及计算机可读存储介质。本发明中,所述文本的纠错方法,包括:获取待纠错句子;将所述待纠错句子转换为句子向量;将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;将所述纠错后句子的句子向量转换为纠错后句子。本发明实施例能够减少人工维护的工作量,从而减少处理成本。
技术领域
本发明实施例涉及人工智能领域,特别涉及一种文本的纠错方法、装置、终端、及计算机可读存储介质。
背景技术
语音对话主要指的是通过电话对话的对话双方的每一轮对话,语音对话多为口语化、重复性的对话,含有较多的无用信息。对语音没法直接处理,需要通过ASR(语音识别)将语音转写成文本。在转写的过程中,由于各种噪声和说话人语气等因素的影响,会使得转写出来的文本效果较差,不能直接用于实际的下游任务。针对这种问题需要对语音转写成的文本进行纠错,将其中的语法和句法等错误纠正,使其满足后续任务的需求。
现阶段的文本纠错算为基于规则的纠错算法。基于规则的纠错算法主要分为错误检测和错误纠正两个步骤,主要是对疑似错误句子进行分析,生成错误处的候选句子或词进行替换,这种方法需要的人力成本较大,需要投入大量的人力进行特征提取.
发明人发现,相关技术中至少存在如下问题:
现有技术主要是基于音似词替换错误,这种需要查错和纠错两个处理过程,主要是将句子中的疑似错误标注出来,然后生成混淆集,从混淆集中筛选出最符合的词进行替换。但是这种方法涉及到的混淆集的建立需要花费大量时间和人工进行维护,成本高且使用不便。
发明内容
本发明实施方式的目的在于提供一种文本的纠错方法、装置、终端、及计算机可读存储介质,能够减少人工维护的工作量,从而减少文本纠错成本。
为解决上述技术问题,本发明的实施方式提供了一种本的纠错方法,包括:
获取待纠错句子;
将所述待纠错句子转换为句子向量;
将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
将所述纠错后句子的句子向量转换为纠错后句子。
本发明的实施方式还提供了一种文本的纠错装置,包括:
获取单元,用于获取待纠错句子;
第一转换单元,用于将所述待纠错句子转换为句子向量;
输入单元,用于将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
第二转换单元,用于将所述纠错后句子的句子向量转换为纠错后句子。
本发明实施例还提供一种终端,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的文本的纠错方法。
本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述的文本的纠错方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(杭州)信息技术有限公司;中国移动通信集团有限公司,未经中移(杭州)信息技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010308062.4/2.html,转载请声明来源钻瓜专利网。