[发明专利]文本的纠错方法、装置、终端、及存储介质有效
申请号: | 202010308062.4 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111539199B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 郭晗暄;单彦会;李娜;郑文彬;罗红 | 申请(专利权)人: | 中移(杭州)信息技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289;G06F40/30;G06F40/58;G10L15/26;G10L15/04;G10L15/16;G10L15/02;G10L15/22;G06N3/044;G06N3/0455;G06N3/088 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 310011 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 终端 存储 介质 | ||
1.一种文本的纠错方法,其特征在于,包括:
获取待纠错句子;
将所述待纠错句子转换为句子向量;
将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
将所述纠错后句子的句子向量转换为纠错后句子;
其中,所述获取待纠错句子的步骤之前,所述方法还包括:生成所述神经机器翻译模型NMT;
所述生成所述神经机器翻译模型NMT的步骤包括:
对原始语料进行新词发现处理,生成原始语料分词;其中,对不同说话角色对应的原始语料进行新词发现处理,生成不同说话角色对应的原始语料分词;
将所述原始语料和预先收集的热词一起加入到分词表中;其中,将所述原始语料分词和预先收集的热词加入到分词表中;所述分词表与所述原始语料对应相同的说话角色;
根据所述分词表对所述原始语料中的原始句子进行分词,生成原始句子分词;其中,所述分词表与所述原始语料对应相同的说话角色;
将所述原始句子分词转换为句子向量;将所述原始句子对应的正确句子转换为句子向量;
将所述原始句子的句子向量和所述正确句子的句子向量组成的句子向量对,输入到NMT模型中进行训练;其中,将所述原始句子的句子向量和所述正确句子的句子向量组成的向量对以及对应的说话角色,输入到NMT模型中进行训练;
通过所述句子向量对的训练,生成所述神经机器翻译模型NMT。
2.根据权利要求1所述的方法,其特征在于,所述对原始语料进行新词发现处理,生成原始语料分词的步骤包括:
将所述原始语料中的原始句子分成词语片段;
根据所述词语片段的凝固程度,确定可能成词的所述词语片段;
当可能成词的所述词语片段的信息熵的值大于预设阈值时,将所述词语片段确定为一个原始语料分词。
3.根据权利要求1所述的方法,其特征在于,
所述获取待纠错句子的步骤包括:获取待纠错句子和所述待纠错句子对应的说话角色;
所述将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中的步骤包括:将所述待纠错句子的句子向量和所述待纠错句子对应的说话角色输入到训练好的神经机器翻译模型NMT中。
4.根据权利要求1所述的方法,其特征在于,所述将所述待纠错句子转换为句子向量的步骤包括:
对所述待纠错句子进行分词,生成待纠错句子分词;
将各个所述待纠错句子分词转换成词向量;
组合各个所述待纠错句子分词的词向量,生成所述待纠错句子的句子向量。
5.根据权利要求4所述的方法,其特征在于,
所述将各个所述待纠错句子分词转换成词向量的步骤的同时,所述方法还包括:生成分词与词向量之间的对应关系;
所述将所述纠错后句子的句子向量转换为纠错后句子的步骤包括:
将所述纠错后句子的句子向量通过解码器生成纠错后词向量;
根据所述分词与词向量之间的对应关系,获取所述纠错后词向量所对应的纠错后分词;
组合所述纠错后分词,生成纠错后句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(杭州)信息技术有限公司;中国移动通信集团有限公司,未经中移(杭州)信息技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010308062.4/1.html,转载请声明来源钻瓜专利网。