[发明专利]系统级芯片中海量数据模型的自然语言统计机器翻译方法在审

申请号：	201710046541.1	申请日：	2017-01-19
公开（公告）号：	CN106844358A	公开（公告）日：	2017-06-13
发明（设计）人：	程国艮;李欣杰	申请（专利权）人：	中译语通科技（北京）有限公司
主分类号：	G06F17/28	分类号：	G06F17/28
代理公司：	北京万贝专利代理事务所(特殊普通合伙)11520	代理人：	马红
地址：	100040 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	系统芯片海量数据模型自然语言统计机器翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于自然语言转换技术领域，尤其涉及一种系统级芯片中海量数据模型的自然语言统计机器翻译方法。

背景技术

不论使用何种机器翻译模型，创造一个好的系统的关键是需要大量高质量的数据。现有算法一种依赖网络端服务器进行语言转换，对网络要求比较高，尤其是需要转换的内容比较多，会出现延时、断线等问题；另一种不需要网络的方法目前的转换质量都不太高，基本是针对单词和短语的转换，无法达到全文转换的高质量要求。

综上所述，现有的机器翻译模型对网络要求比较高，出现延时、断线；转换质量不高。

发明内容

本发明的目的在于提供一种系统级芯片中海量数据模型的自然语言统计机器翻译方法，旨在解决现有的机器翻译模型对网络要求比较高，出现延时、断线；转换质量不高的问题。

本发明是这样实现的，一种系统级芯片中海量数据模型的自然语言统计机器翻译方法，所述系统级芯片中海量数据模型的自然语言统计机器翻译方法包括以下步骤：

步骤一，算法初始化，选择语言训练对应的模型；

步骤二，打开应用文件并选取需要翻译的内容，也可以选择文本文件或网页；

步骤三，将选定的内容转换为目标语言；

步骤四，显示结果并等待用户反馈；

步骤五，如用户不满意可以自己输入结果并加入模型中，不断完善翻译质量。

本发明提供的系统级芯片中海量数据模型的自然语言统计机器翻译方法，在无网络环境下，精确的自然语言转换方法：使用超过100G的语料库进行模型训练，从而达到精确的全文自然语言转换。本发明在无网络环境下采用超过100G的语料库模型，已经和现有网络服务器算法的存储相当，也就是说翻译质量和网络版相同，而且速度会更快。

附图说明

图1是本发明实施例提供的系统级芯片中海量数据模型的自然语言统计机器翻译方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的系统级芯片中海量数据模型的自然语言统计机器翻译方法包括以下步骤：

S101：算法初始化，选择语言训练对应的模型；

S102：打开应用文件并选取需要翻译的内容，也可以选择文本文件或网页；

S103：将选定的内容转换为目标语言；

S104：显示结果并等待用户反馈；

S105：如用户不满意可以自己输入结果并加入模型中，不断完善翻译质量。

本发明在无网络环境下采用超过100G的语料库模型，已经和现有网络服务器算法的存储相当，也就是说翻译质量和网络版相同，而且速度会更快。