[发明专利]一种基于句法成分分析的自动化机器翻译测试方法在审
申请号: | 202110581487.7 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113283250A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 冯洋;吉品;李玉莹;赵志宏;刘嘉;陈振宇 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210023 江苏省南京市栖霞*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 句法 成分 分析 自动化 机器翻译 测试 方法 | ||
一种基于句法成分分析的机器翻译自动化测试方法,其特征是使用句法成分分析获取句子的选区结构,并构建蜕变关系,无需参考文本即可评估机器翻译模型的性能。主要解决当前测试机器翻译的存在的依赖参考文本。准确性较低、内部参数不可理解、和测试预言难以构建的问题。选区反映了句子与其组成部分之间的整体关系,它通常用于描述句子的句法结构的特征。由于修饰词不能对句子的结构产生强烈的影响,给定句子的选区结构通常保留在其添加修饰语之后的句子的选区结构中,即选区不变性。本方法的步骤包括使用句子压缩模型生成文本扩增模板,使用BERT模型生成选区变体,使用选区解析树模型来表达句子结构,并基于选区不变性检测翻译错误。
技术领域
本发明属于软件测试领域,特别是涉及到及机器翻译测试和自动化测试方法。句法成分分析技术对机器翻译模型进行自动化测试是一种新的尝试。与以往的机器翻译测试不同,本方法运用自然语言处理领域中的句法成分分析、软件测试领域的模糊测试理念和蜕变测试方法,解决机器翻译测试依赖参考文本、准确性较低、内部参数不可理解、测试预言难以构建的问题。
背景技术
机器翻译是指使用软件将文本从源语言转换为目标语言,这是自然语言处理(NLP)的重要子领域。机器翻译主要有三种方法:基于规则,基于统计和基于神经网络。随着机器学习方法(例如深度学习)的成熟,基于神经网络的机器翻译(NMT)已成为主流,并且表现出色。与前两种方法相比,NMT已经可以与人类翻译水平相当,如Bing翻译、谷歌翻译、有道翻译等。对于许多人来说,机器翻译软件在日常生活中必不可少,据统计,全世界有超过5亿人在各项应用场景中使用Google翻译。
但是,NMT系统也可能会有软件缺陷并导致翻译错误。这些错误的翻译可能会引起误解,营销失误,对人身安全的威胁,甚至是政治危机。例如,汇丰银行在2009年将其品牌口号“Assume Nothing”翻译到多种语言。不幸的是,在许多国家被翻译成“不做任何事”。这家著名的国际银行不得不花费超过1000万美元,才能消除这种严重的翻译错误带来的负面影响。因此,NMT的鲁棒性已经广泛地引起关注。NMT模型在很大程度上取决于训练数据输入到隐藏层的数量和质量,导致在低资源条件下性能急剧下降,但在高资源条件下性能良好。尽管翻译器表现出了良好的性能,但开发人员仍在不断准备更全面的测试数据并识别翻译错误,以衡量稀缺的训练资源给模型带来的影响。通过分析这些错误,开发人员可以获得有关NMT模型的优缺点信息,以提出改进措施。收集错误翻译、源句及其正确的翻译,并补充训练集以进行微调或重训练是提高NMT模型性能的有效方法。因此,几乎所有翻译服务提供商都具有反馈渠道,并要求用户提交不正确的翻译或相应的正确翻译,以帮助他们提高产品性能。百度在用户服务中心设置了翻译结果反馈页面,并将处理结果及时地通知用户。微软已与第三方服务UserVoice合作,以使用户更方便快捷报告错误的翻译。谷歌翻译甚至建立了翻译社区,并设立了奖项以激励贡献者提供更有价值的反馈。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110581487.7/2.html,转载请声明来源钻瓜专利网。