[发明专利]用于计算机辅助翻译的候选短语查询方法及辅助翻译系统有效
申请号: | 201210166934.3 | 申请日: | 2012-05-25 |
公开(公告)号: | CN102693309A | 公开(公告)日: | 2012-09-26 |
发明(设计)人: | 刘群;王洋;刘洋;骆卫华;吕雅娟 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 计算机辅助 翻译 候选 短语 查询 方法 辅助 系统 | ||
技术领域
本发明属于计算机辅助翻译领域,尤其涉及计算机辅助翻译过程中的候选短语的推荐方法。
背景技术
随着科学技术和互联网的快速发展,计算机和网络技术已经深入我们工作、生活的方方面面。在翻译领域,最令人激动的莫过于计算机辅助翻译技术CAT(Computer Aided Translation)。在计算机辅助翻译系统的设计中存在着两种不同思路:一种是机器翻译(Machine Translation),另一种是翻译记忆(Translation Memory)。
近些年机器翻译技术取得了巨大的进步,但是由于自然语言的复杂性,机器翻译的译文难以做到完满的程度。同时传统机器翻译的结果只提供给用户一个最佳译文,并没有提供帮助用户修改翻译结果的辅助信息,这使得对于外语水平较低的用户很难对译文做出修改,阻碍了机器翻译的普及应用。而采用翻译记忆所设计的计算机辅助翻译系统在辅助信息推荐方面功能强大,但是其所面临的困境主要是该软件主要靠用户翻译历史的积累自动构建翻译记忆库,从而给出相似短语的提示信息。在没有大量翻译记忆的前提下,该软件就很难给用户提供有用的帮助信息,特别的是该软件对用户的英语水平要求过高,使得只有专业的翻译人员才适合使用。
利用机器翻译过程中的中间信息和其他辅助信息来对自动翻译的结果进行高效的修改和完善,提高翻译的质量和效率,已成为相关研究者的关注焦点。已有的方法基本上可以分为两类:一类是在给出机器自动翻译结果的基础之上,再给出若干短语的候选翻译(即候选短语),供用户选择;另一类是给出机器自动翻译结果仅供参考,同时给出与源语言句子的相关候选短语,由用户点击构成目标语言句子。
一般来说,候选短语的数量越多,质量越高,对用户的帮助就越大。但随着系统语料的日益增长和用户历史行为的累计,候选短语的数量会快速的增长。如何针对用户输入的源语言语句快速地从翻译历史等各种辅助信息中查找出与源文本相关的候选短语是其中必须要解决的关键问题。目前通常的做法是枚举源语言句子中所有的子片段,对每一个子片段进行查询,判断是否存在于短语集合中。这种算法的时间复杂度高,随着源语言句子长度的增加以及候选短语数量的增长,其查询的时间会快速增长。据发明人实验统计,当源语言句子长度在400个字符时,其查询时间就达到了4秒左右,这样的速度显然是机器翻译系统不能承受的,而且用户体验较差。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种用于计算机辅助翻译的候选短语查询方法,快速地查询与源语言句子相关的候选短语,提高计算机辅助翻译的效率。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种用于计算机辅助翻译的候选短语查询方法,包括:接收源语言句子;然后从候选短语集合的Trie树查找出所有与源语言句子相关的候选短语;
其中,所述Trie树的每个节点都具有失败指针,所述失败指针是通过以下的步骤构造的:
步骤(1)将所述Trie树的根节点和第一层节点的失败指针都指向根节点;
步骤(2)对整棵Trie树进行广度优先遍历,对于任意一个当前节点,如果通过某一条件使得当前节点及其某一子节点,以及当前节点的失败指针所指向的节点及其子节点都有相同的状态转移,则当前节点的子节点的失败指针指向所述当前节点的失败指针所指向的节点的子节点,否则指向根节点。
上述方法中,所述从候选短语集合的Trie树查找出所有与源语言句子相关的候选短语可以包括:
从源语言句子中第一个字符和所述Trie树根节点开始执行以下操作:
步骤I)将当前字符与当前节点的子节点进行匹配,如果匹配不成功,当前节点转向其失败指针所指向的节点继续匹配;如果当前字符与当前节点的子节点匹配成功,则直接转向该匹配成功的子节点;
步骤II)如果该匹配成功的子节点带有单词结束标志,则输出该节点对应短语和以该短语结尾的所有后缀中出现的短语,否则转到源语言句子的下一个字符,重复步骤I)和II),直到源语言句子结束为止。
又一方面,本发明提供了一种计算机辅助翻译方法,包括:
步骤1,对源语言文档进行机器翻译,生成译文;
步骤2,采用上述的候选短语查询方法,基于辅助翻译信息,为用户生成与源语言文档相关的候选短语;
步骤3,由用户基于所生成的与源语言文档相关的候选短语,对所述译文进行调整,并生成最终的目标语言文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210166934.3/2.html,转载请声明来源钻瓜专利网。