[发明专利]文本的纠错方法、装置、终端、及存储介质有效

申请号：	202010308062.4	申请日：	2020-04-17
公开（公告）号：	CN111539199B	公开（公告）日：	2023-08-18
发明（设计）人：	郭晗暄;单彦会;李娜;郑文彬;罗红	申请（专利权）人：	中移（杭州）信息技术有限公司;中国移动通信集团有限公司
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/289;G06F40/30;G06F40/58;G10L15/26;G10L15/04;G10L15/16;G10L15/02;G10L15/22;G06N3/044;G06N3/0455;G06N3/088
代理公司：	上海晨皓知识产权代理事务所(普通合伙) 31260	代理人：	成丽杰
地址：	310011 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本纠错方法装置终端存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例涉及人工智能领域，公开了一种文本的纠错方法、装置、终端、及计算机可读存储介质。本发明中，所述文本的纠错方法，包括：获取待纠错句子；将所述待纠错句子转换为句子向量；将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中，以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量；将所述纠错后句子的句子向量转换为纠错后句子。本发明实施例能够减少人工维护的工作量，从而减少处理成本。

技术领域

本发明实施例涉及人工智能领域，特别涉及一种文本的纠错方法、装置、终端、及计算机可读存储介质。

背景技术

语音对话主要指的是通过电话对话的对话双方的每一轮对话，语音对话多为口语化、重复性的对话，含有较多的无用信息。对语音没法直接处理，需要通过ASR(语音识别)将语音转写成文本。在转写的过程中，由于各种噪声和说话人语气等因素的影响，会使得转写出来的文本效果较差，不能直接用于实际的下游任务。针对这种问题需要对语音转写成的文本进行纠错，将其中的语法和句法等错误纠正，使其满足后续任务的需求。

现阶段的文本纠错算为基于规则的纠错算法。基于规则的纠错算法主要分为错误检测和错误纠正两个步骤，主要是对疑似错误句子进行分析，生成错误处的候选句子或词进行替换，这种方法需要的人力成本较大，需要投入大量的人力进行特征提取.

发明人发现，相关技术中至少存在如下问题：

现有技术主要是基于音似词替换错误，这种需要查错和纠错两个处理过程，主要是将句子中的疑似错误标注出来，然后生成混淆集，从混淆集中筛选出最符合的词进行替换。但是这种方法涉及到的混淆集的建立需要花费大量时间和人工进行维护，成本高且使用不便。

发明内容

本发明实施方式的目的在于提供一种文本的纠错方法、装置、终端、及计算机可读存储介质，能够减少人工维护的工作量，从而减少文本纠错成本。

为解决上述技术问题，本发明的实施方式提供了一种本的纠错方法，包括：

获取待纠错句子；

将所述待纠错句子转换为句子向量；

将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中，以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量；

将所述纠错后句子的句子向量转换为纠错后句子。

本发明的实施方式还提供了一种文本的纠错装置，包括：

获取单元，用于获取待纠错句子；