[发明专利]语料处理的方法、装置、可读存储介质和电子设备在审
申请号: | 202010482093.1 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111832321A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 魏文扬;陈坦访;王伟玮;李奘 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/289;G06F40/30;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 处理 方法 装置 可读 存储 介质 电子设备 | ||
本发明实施例公开了一种语料处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取源语料序列;将所述源语料序列输入到预先训练的机器翻译模型;根据所述机器翻译模型对所述源语料序列进行分词处理,确定分词处理后的预处理源语料序列,所述分词处理包括初步分词处理和字节对编码BPE分词处理,所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的;确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息;根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息,确定出目标语料序列。通过上述方法,由于机器翻译模型中引入了字节对编码BPE词表以及知识图谱,因此提高了机器翻译的准确性。
技术领域
本发明涉及数据处理领域,具体涉及一种语料处理的方法、装置、可读存储介质和电子设备。
背景技术
随着社会的进步,来自不同国家和地区,使用不同语言的人们之间的交流越来越多,但是由于不同国家的大部分人只掌握本国的语言,不擅长其他国家的语言,交流存在障碍,因此,需要将不同国家的语言互译,帮助人们突破交流的障碍,进行更好的沟通。
现有技术中,采用机器翻译技术将一种自然语言翻译为另一种语言,机器翻译技术的应用场景非常广泛,帮助人们进行沟通交流,虽然机器翻译技术近几年不断发展,翻译效果也在不断接近人类,但还是存在一些不足之处,例如,对于未登录词,机器翻译技术可能无法正确的翻译;另外,还有一些具有不同意思的同一个词,即一词多义的情况,机器翻译技术可能无法分辨场景的区别,将这样的词翻译为常用意思,而非正确的意思,造成翻译错误。
综上所述,如何提高机器翻译的准确性,是目前需要解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种语料处理的方法、装置、可读存储介质和电子设备,能够提高机器翻译技术的准确性。
第一方面,本发明实施例提供了一种语料处理的方法,该方法包括:获取源语料序列;将所述源语料序列输入到预先训练的机器翻译模型;根据所述机器翻译模型对所述源语料序列进行分词处理,确定分词处理后的预处理源语料序列,其中,所述分词处理包括初步分词处理和字节对编码BPE分词处理,所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的;确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息,其中,所述实体词为所述预处理源语料序列在所述BPE词表中查找到的词,所述实体向量信息和关系向量信息根据存储在所述机器翻译模型中的知识图谱的实体向量信息和知识图谱的关系向量信息确定的;根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息,确定出目标语料序列。
优选地,训练所述机器翻译模型的步骤包括:获取平行语料、和字节对编码BPE词表以及向量信息,其中,所述向量信息包括知识图谱的实体向量信息、以及知识图谱的关系向量信息,所述平行语料为双语语料;通过所述平行语料、和字节对编码BPE词表以及所述向量信息,通过设定的方法训练所述机器翻译模型。
优选地,该方法还包括:获取初始平行语料;将所述初始平行语料进行语料清洗;确定所述平行语料。
优选地,该方法还包括:构建知识图谱对应的三元组库,其中,所述知识图谱为双语知识图谱;将所述三元组库按照设定算法生成知识图谱的实体向量信息以及知识图谱的关系向量信息。
优选地,所述设定算法为TransE算法。
优选地,该方法还包括:生成字节对编码BPE词表;将所述节对编码BPE词表保存到所述机器翻译模型的嵌入层。
优选地,所述机器翻译模型为自注意力机制模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010482093.1/2.html,转载请声明来源钻瓜专利网。