[发明专利]基于辅助翻译软件和双粒度替换的英中翻译软件测试方法在审

专利信息
申请号: 202210405606.8 申请日: 2022-04-18
公开(公告)号: CN115130480A 公开(公告)日: 2022-09-30
发明(设计)人: 陈翔;郑炜;王通;陈雪骄;林浩;周彦琳;缪芸;苏展 申请(专利权)人: 南通大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/30;G06F40/289;G06F40/211
代理公司: 暂无信息 代理人: 暂无信息
地址: 226019*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 辅助 翻译 软件 粒度 替换 测试 方法
【权利要求书】:

1.一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法,其特征在于,包括如下步骤:

(1)将被测英中机器翻译软件视为主英中机器翻译软件,其他三个英中机器翻译软件视为辅助英中机器翻译软件,针对需要测试的一系列英文源句,依次分析每个英文源句;

所述分析每个英文源句具体为:给定一个英文源句,将主英中机器翻译软件的翻译结果,即中文目标句A,与辅助英中机器翻译软件的翻译结果进行对比,在对比的时候主要基于余弦相似度来计算翻译结果之间的相似度,将三个辅助英中机器翻译软件生成的中文目标句定义为A1、A2、A3。首先将相似度阈值设置为0.85,计算A1、A2、A3两两之间的余弦相似度,若两句间的余弦相似度超过阈值0.85,则认为这两个句子相似,根据上述结果,可以将A1、A2和A3归到不同的集合中,使得处在同一集合内的中文目标句两两相似;

根据集合划分的结果,存在两种情况:

情况1:A1、A2、A3被归到不同集合内,将该英文源句视为错误候选句子,人工分析错误类型,并进行归类错误类型包括:翻译不足、翻译过度、逻辑不清、单词误译、单词歧义、错误修饰;

情况2:有集合包含的中文目标句不少于2个,将中文目标句A与该集合内的中文目标句进行余弦相似度计算并取均值,若均值低于相似度阈值0.85,则将该英文源句视为错误候选句子,人工分析错误类型。

针对剩余未被归为错误候选句子的英文源句,则进入步骤(2);

(2)针对步骤(1)中剩余未被归为错误候选句子的英文源句,依次分析每个英文源句,具体来说:对需要分析的英文源句进行双粒度替换,以生成替换后的英文源句。随后基于成分句法分析和依存句法分析,通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征,以判断是否存在翻译错误,并随后人工分析错误类型,并进行归类;

具体包括如下步骤:

2-1)选择英文源句中需要替换的单词或者短语;

2-2)基于BERT遮蔽语言模型,完成单词粒度的替换或者短语粒度的替换,以生成替换后的英文源句;其中,单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文源句中的一个单词,以完成单词粒度的替换,主要考虑名词、形容词和动词三个成分);短语粒度的替换是在单词粒度的基础上,组合出主谓短语和动宾短语进行替换;

具体包括以下步骤:

将需要替换的单词和短语用MASK进行标记,随后将标记过的英文源句输入BERT遮蔽语言模型,该模型可以根据句子的上下文预测被遮蔽位置的单词或短语,最后用预测出的单词或短语替换英文源句中对应位置的单词或短语,以得到基于单词粒度或短语粒度的替换句;

BERT模型的超参与超参取值设置如下:

所述BERT模型的一次训练所抓取的数据样本数量设置为16;

所述BERT模型的学习率设置为0.00002;

所述BERT模型的dropout设置为0.1;

所述BERT模型的训练轮次设置为3轮;

所述BERT模型的每个样本的最大长度,即最大单词数设置为128;

2-3)基于成分句法分析和依存句法分析,依次分析英文源句和生成的替换句;

具体包括以下步骤:

假设原始英文源句为s,基于主英中机器翻译软件得到的中文目标句为t,替换后的英文源句为s’,基于主英中机器翻译软件得到的中文目标句为t’;

通过成分句法分析得到中文目标句t和中文目标句t’的结构表征;

通过集合差的方式,计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值,并将该差值包含的元素数作为基于成分句法分析得到的差异值diff1;

通过依存句法分析得到中文目标句t和中文目标句t’的结构表征,通过集合差的方式,计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值,并将该差值包含的元素数作为基于依存句法分析得到的差异值diff2;

将差异值diff1和差异值diff2相加,最终可以得到针对原始英文源句s和英文源句s’的最终差值;若该差值超过阈值6,则将英文源句s和英文源句s’视为错误候选句子,人工分析错误类型,并进行归类。

(3)针对步骤(1)和步骤(2)中被归为错误候选句子的英文源句,尝试定位并修复英中翻译软件测试方法的实现代码,以提高英中翻译软件的翻译质量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210405606.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top