[发明专利]一种网页取词汉民翻译方法及其装置在审

专利信息
申请号: 201710019958.9 申请日: 2017-01-11
公开(公告)号: CN106844354A 公开(公告)日: 2017-06-13
发明(设计)人: 陈雷;高翊;胡泽林;李淼;杨振新;孙凯;高进 申请(专利权)人: 中国科学院合肥物质科学研究院;云南省民族宗教事务委员会
主分类号: G06F17/28 分类号: G06F17/28;G06F17/30
代理公司: 北京元本知识产权代理事务所11308 代理人: 秦力军
地址: 230031 *** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 汉民 翻译 方法 及其 装置
【说明书】:

技术领域

发明涉及计算机应用技术领域,特别涉及一种融合机器翻译与数据检索的网页取词汉民翻译方法及其装置。

背景技术

随着互联网的发展,越来越多的知识通过网页传播。我国是统一的多民族国家,在部分民族聚居区,仍然存在许多使用汉语较为困难的民族同胞。现有翻译软件大多针对汉英等大语种,缺乏民族语言相关的翻译功能;另一方面,一些屏幕取词软件,如金山词霸,只能对单个单词进行翻译,不能完成篇章、段落或句子级别的翻译,使得用户有时难以理解整个段落或整个句子的含义。因此,如何获取网页上的指定内容并翻译成所需的民族语言具有现实意义。近年来,自然语言处理技术尤其是机器翻译技术持续发展,民族语言信息化工作也取得了较大进展,积累了一定的民族语言资源,为使用机器翻译技术实现汉民翻译提供了语言基础和技术支撑。

发明内容

本发明针对民族语言信息化的现实需求,提供了一种融合机器翻译与数据检索的网页取词汉民翻译方法及其装置,获取汉语网页中的文字,从段落到句子到单词,融合机器翻译与数据检索逐级向下进行翻译,实现机器翻译与数据检索的有效融合,提高了汉民翻译的速度和准确性。

本发明是通过以下技术方案实现的:

一种融合机器翻译与数据检索的网页取词汉民翻译方法,包括以下步骤:

步骤S1:建立语言翻译模型、解码器、汉民字体库及汉民输入法;

步骤S2:建立汉民双语平行语料库,以一对一的形式保存;

步骤S3:建立汉民双语比对数据库,以一对一的形式保存;

步骤S4:在导航条、菜单、标题等非网页正文中,获取完整网页元素内的文本内容,在网页正文部分,以段落为上限,以最大长度方式识别并获取鼠标处的文本内容;

步骤S5:将获取的文本内容与汉民双语平行语料库中数据进行比对,如果能找到存在获取的文本内容一致的互译对则返回对应的译文数据,如果无法找到则将获取的文本内容通过解码器进行段落、句子、单词逐级解析,与汉民双语比对数据库对应数据进行比对,将比对后的解析数据返回;

步骤S6:通过语言翻译模型将返回的译文数据或解析数据进行再整理,将整理后的翻译结果提交,根据译文语种与编码识别调用汉民字体库,显示最终翻译结果;

步骤S7:对最终翻译结果进行译文再编辑,允许用户调用汉民输入法对译文进行编辑与修改,并将获取的网页文字与修改后的译文作为互译对添加至汉民双语平行语料库中。结果进行译文再编辑,允许用户调用汉民输入法对译文进行编辑与修改,并将获取的网页文字与修改后的译文作为互译对添加至汉民双语平行语料库中。

一种融合机器翻译与数据检索的网页取词汉民翻译装置,包括网页文字获取模块、汉民互译数据库模块、机器翻译模块、显示模块和译文再编辑模块,所述汉民互译数据库模块包括数据检索模块、汉民双语平行语料库、汉民双语比对数据库;所述机器翻译模块包括语言翻译模型、解码器、汉民字体库及汉民输入法。

本发明提供的网页取词汉民翻译装置融合了机器翻译与数据检索,对于网页文字获取模块进行识别,如果在汉民互译数据库模块中能够检索到则直接返回对应的翻译文本,否则再调用机器翻译模块对获取的内容进行从段落到句子再到单词的逐级解析,翻译后并显示最终结果,允许用户对翻译结果进行再编辑提供更好的译文。本发明不局限于单词的翻译,可对整个句子和整个段落进行翻译,保障翻译结果的完整性;使用融合机器翻译与数据检索的方法,无须每次都调用机器翻译模块,可以大幅提高翻译速度;使用译文再编辑模块以改进翻译结果,随着使用次数的增加可持续扩充汉民互译对。

附图说明

图1是本发明的网页取词汉民翻译方法的流程图

图2是本发明的网页取词汉民翻译装置的结构图。

具体实施方式

以下结合图1和图2对本发明的技术方案作详细说明。

如图1和图2所示,本发明的网页取词汉民翻译装置,包括网页文字获取模块、汉民互译数据库模块、机器翻译模块、显示模块和译文再编辑模块。汉民互译数据库模块包括数据检索模块、汉民双语平行语料库、汉民双语比对数据库,机器翻译模块包括语言翻译模型、解码器、汉民字体库及汉民输入法。汉民双语平行语料库和汉民双语比对数据库的互译对均以一对一的形式保存。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院;云南省民族宗教事务委员会,未经中国科学院合肥物质科学研究院;云南省民族宗教事务委员会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710019958.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top