[发明专利]语料处理的方法、装置、可读存储介质和电子设备在审
申请号: | 202010482093.1 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111832321A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 魏文扬;陈坦访;王伟玮;李奘 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/289;G06F40/30;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种语料处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取源语料序列;将所述源语料序列输入到预先训练的机器翻译模型;根据所述机器翻译模型对所述源语料序列进行分词处理,确定分词处理后的预处理源语料序列,所述分词处理包括初步分词处理和字节对编码BPE分词处理,所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的;确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息;根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息,确定出目标语料序列。通过上述方法,由于机器翻译模型中引入了字节对编码BPE词表以及知识图谱,因此提高了机器翻译的准确性。 | ||
搜索关键词: | 语料 处理 方法 装置 可读 存储 介质 电子设备 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010482093.1/,转载请声明来源钻瓜专利网。