[发明专利]语料处理的方法、装置、可读存储介质和电子设备在审
申请号: | 202010482093.1 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111832321A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 魏文扬;陈坦访;王伟玮;李奘 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/289;G06F40/30;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 处理 方法 装置 可读 存储 介质 电子设备 | ||
1.一种语料处理的方法,其特征在于,该方法包括:
获取源语料序列;
将所述源语料序列输入到预先训练的机器翻译模型;
根据所述机器翻译模型对所述源语料序列进行分词处理,确定分词处理后的预处理源语料序列,其中,所述分词处理包括初步分词处理和字节对编码BPE分词处理,所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的;
确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息,其中,所述实体词为所述预处理源语料序列在所述BPE词表中查找到的词,所述实体向量信息和关系向量信息根据存储在所述机器翻译模型中的知识图谱的实体向量信息和知识图谱的关系向量信息确定的;
根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息,确定出目标语料序列。
2.如权利要求1所述的方法,其特征在于,训练所述机器翻译模型的步骤包括:
获取平行语料、字节对编码BPE词表、以及向量信息,其中,所述向量信息包括知识图谱的实体向量信息、以及知识图谱的关系向量信息,所述平行语料为双语语料;
通过所述平行语料、字节对编码BPE词表以及所述向量信息,通过设定的方法训练所述机器翻译模型。
3.如权利要求2所述的方法,其特征在于,该方法还包括:
获取初始平行语料;
将所述初始平行语料进行语料清洗;
确定所述平行语料。
4.如权利要求2所述的方法,其特征在于,该方法还包括:
构建知识图谱对应的三元组库,其中,所述知识图谱为双语知识图谱;
将所述三元组库按照设定算法生成知识图谱的实体向量信息以及知识图谱的关系向量信息。
5.如权利要求4所述的方法,其特征在于,所述设定算法为TransE算法。
6.如权利要求2所述的方法,其特征在于,该方法还包括:
生成字节对编码BPE词表;
将所述节对编码BPE词表保存到所述机器翻译模型的嵌入层。
7.如权利要求2所述的方法,其特征在于,所述机器翻译模型为自注意力机制模型。
8.一种语料处理的装置,其特征在于,该装置包括:
获取单元,用于获取源语料序列;
输入单元,用于将所述源语料序列输入到预先训练的机器翻译模型;
处理单元,用于根据所述机器翻译模型对所述源语料序列进行分词处理,确定分词处理后的预处理源语料序列,其中,所述分词处理包括初步分词处理和字节对编码BPE分词处理,所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的;
第一确定单元,用于确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息,其中,所述实体词为所述预处理源语料序列在所述BPE词表中查找到的词,所述实体向量信息和关系向量信息根据存储在所述机器翻译模型中的知识图谱的实体向量信息和知识图谱的关系向量信息确定的;
第二确定单元,用于根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息,确定出目标语料序列。
9.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7任一项所述的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010482093.1/1.html,转载请声明来源钻瓜专利网。