[发明专利]基于降维桶模型的文本翻译方法及装置有效

申请号：	202010349528.5	申请日：	2020-04-28
公开（公告）号：	CN111680519B	公开（公告）日：	2023-04-07
发明（设计）人：	骆加维;吴信朝;周宸;王虎;许康颂	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/44;G06F40/30;G06F40/216;G06F18/213;G06N3/0455;G06N3/047;G06N3/08
代理公司：	北京中强智尚知识产权代理有限公司 11448	代理人：	黄耀威
地址：	518000 广东省深圳市福田街***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于降维桶模型文本翻译方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于降维桶模型的文本翻译方法及装置，涉及人工智能技术领域，主要目的在于能够通过引入降维桶算法，解决NLP翻译任务中长文本深度语义传递的问题，通过降低计算复杂度，从而扩充单次输入文本长度，提高翻译结果准确性和翻译效率。所述方法包括：接收文本翻译请求，所述请求中携带有待翻译文本数据；通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；利用所述文本翻译结果响应所述文本翻译请求。本发明适用于基于降维桶模型的文本翻译。

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于降维桶模型的文本翻译方法及装置。

背景技术

机器翻译是自然语言处理的一个分支，目前来说机器翻译主要用应用于后台工作，在机器人相关领域主要负责不同语种之间的翻译。机器翻译的技术从最初的根据机器翻译的seq2seq，到Bidaf，mlstm和r-net等依靠RNN为基础的模型和依靠transformer的端对端模型，18年底bert模型在多个任务中全面超越传统模型。模型的升级带来的是性能的优化以及准确率的提高。

目前，通常以Bert模型作为机器翻译模型。然而，Bert模型本身存在天然缺陷，即MASK机制下，掩码词语是相互独立的，丢失了深层语义；另外，在长文本任务中，模型的断句不合理等，也会导致深层语义无法通过长文本传递的问题。从而造成翻译结果准确性差，翻译效率较低。

发明内容

有鉴于此，本发明提供一种基于降维桶模型的文本翻译方法及装置，主要目的在于能够通过引入降维桶算法，解决NLP翻译任务中长文本深度语义传递的问题，通过降低计算复杂度，从而扩充单次输入文本长度，提高翻译结果准确性和翻译效率。

依据本发明一个方面，提供了一种基于降维桶模型的文本翻译方法，包括：

接收文本翻译请求，所述请求中携带有待翻译文本数据；

通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；

利用所述文本翻译结果响应所述文本翻译请求。

进一步地，所述通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果，包括：

利用预先训练的降维桶模型对所述带翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果。

进一步地，所述利用预先训练的降维桶模型对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果，包括：

根据获取的输入向量进行归一化处理得到注意力分数，并利用所述注意力分数划分降维桶结构；

利用预设不同数量级的注意力分数进行降维桶结构补充；