[发明专利]双语语料清洗的方法、装置及计算机可读存储介质在审
申请号: | 201711351289.1 | 申请日: | 2017-12-15 |
公开(公告)号: | CN107977454A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 张睦 | 申请(专利权)人: | 传神语联网网络科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京康盛知识产权代理有限公司11331 | 代理人: | 李晓芳 |
地址: | 430000 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 双语 语料 清洗 方法 装置 计算机 可读 存储 介质 | ||
技术领域
本发明涉及翻译技术领域,特别涉及双语语料清洗的方法、装置及计算机可读存储介质。
背景技术
当前计算机辅助翻译是提高翻译一致性和效率的重要手段,它能够帮助翻译者优质、高效、轻松地完成翻译,使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。
通过计算机辅助翻译进行翻译时,待翻译的文本会在双语翻译语料库中进行原语言的句段语料匹配,以检索出相似度比较高的其对应的译文并向译员提出翻译建议。友好的建议会大大的减少译员重复的翻译任务并且保证了其翻译的一致性,从而大大提高了翻译工作的效率。因此,双语翻译语料库的质量是提高翻译效率的一个关键因素。而双语翻译语料库中可能会包含一些错误的翻译单元,这些错误的翻译单元往往会降低语料匹配的建议,因此对双语翻译语料库进行语料清洗,剔除错误的翻译单元是一项不能忽视的重要工作。
发明内容
本发明实施例提供了一种双语语料清洗的方法、装置及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种双语语料清洗的方法,包括:
确定当前待清洗语料的当前语料清洗特征值,其中,所述当前语料清洗特征值为表示所述当前待清洗语料中当前原文与当前译文翻译匹配程度的特征值;
从设定的已标识标签的双语语料集合中,通过机器学习提取与所述当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签,其中,所述设定的已标识标签的双语语料集合中包括第二设定个数的语料,每个语料的清洗分类标签和语料清洗特征值已确定,且所述清洗分类标签至少包括两类;
根据所述第一设定个数的清洗分类标签,确定所述当前待清洗语料当前清洗分类标签,并进行对应的清洗处理。
本发明一实施例中,所述确定当前待清洗语料的当前语料清洗特征值之前,还包括:
从双语翻译语料库中,获取第三设定个数的已标注第一类清洗分类标签的第一语料,第四设定个数的已标注第二类清洗分类标签的第二语料,以及第五设定个数的已标注第三类清洗分类标签的第三语料;
根据所述第一语料,所述第二语料,以及所述第三语料,组成所述设定的已标识标签的双语语料集合;
确定所述设定的已标识标签的双语语料集合中每个语料的语料清洗特征值。
本发明一实施例中,所述确定所述设定的已标识标签的双语语料集合中每个语料的语料清洗特征值包括:
根据所述语料中原文与译文的文字特征,确定至少一个第一语料清洗特征值;或/和,
根据设定的机器翻译模型,确定所述语料的至少一个第二语料清洗特征值;或/和,
根据语种方向、语法以及译员翻译的编辑行为记录,确定所述语料的至少一个第三语料清洗特征值。
本发明一实施例中,所述从设定的已标识标签的双语语料集合中,通过机器学习提取与所述当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签包括:
将所述当前语料清洗特征值与所述设定的已标识标签的双语语料集合中每个语料的语料清洗特征值进行比较;
通过k临近分类算法,确定第一设定个数与所述当前语料清洗特征值最匹配的语料,并提取对应的清洗分类标签。
本发明一实施例中,所述进行对应的清洗处理包括:
若所述当前清洗分类标签为第一类清洗分类标签时,将所述当前待清洗语料保持在双语翻译语料库中;
若所述当前清洗分类标签为第二类清洗分类标签时,进行再编辑提示;
若所述当前清洗分类标签为第三类清洗分类标签时,从所述双语翻译语料库中删除所述当前待清洗语料。
根据本发明实施例的第二方面,提供一种双语语料清洗的装置,包括:
确定单元,用于确定当前待清洗语料的当前语料清洗特征值,其中,所述当前语料清洗特征值为表示所述当前待清洗语料中当前原文与当前译文翻译匹配程度的特征值;
提取单元,用于从设定的已标识标签的双语语料集合中,通过机器学习提取与所述当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签,其中,所述设定的已标识标签的双语语料集合中包括第二设定个数的语料,每个语料的清洗分类标签和语料清洗特征值已确定,且所述清洗分类标签至少包括两类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于传神语联网网络科技股份有限公司,未经传神语联网网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711351289.1/2.html,转载请声明来源钻瓜专利网。