[发明专利]一种用于篇章级英译中机器翻译测试集的构建方法有效
申请号: | 202011248076.8 | 申请日: | 2020-11-10 |
公开(公告)号: | CN112380877B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 蔡心怡;熊德意 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/289 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 张建中 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 篇章 级英译中 机器翻译 测试 构建 方法 | ||
1.一种用于篇章级英译中机器翻译测试集的构建方法,其特征在于,该方法包括:
获取具有指代、连接、省略的衔接语法的篇章级英文文本数据及其对应的中文翻译文本数据;
对获取的中英文文本数据进行初步过滤处理,形成仅包含中英文词汇的文本数据;将处理后的英文文本数据作为源语言数据,将处理后的中文翻译文本数据作为目标语言数据;
将同时具有单复数或男女性别两种表达含义的代词称为两义代词,选取两义代词作为查找参数,搜索源语言数据,当源语言数据中的某一句出现两义代词时,且该句的前一句给出决定单复数或男女性别的信息,则检查目标语言数据中对应的翻译文本,判断对应的单复数或性别表述是否正确,并对错误进行修正;
将具有两种以上含义的英文篇章级连接词称为多义连词,选取若干个多义连词,作为查找参数搜索源语言数据,当源语言数据中的某一句出现多义连词时,则检查目标语言数据中该句对应的翻译文本及其上下文信息,判断对多义连词的翻译是否正确,并对错误进行修正;
选取用于替代因上下句重复出现而被省略的动词的助动词,作为查找参数搜索源语言数据,当源语言数据中的某一句出现助动词以及相应的否定形式时,则检查目标语言数据中对应的翻译文本是否翻译出其省略动词的含义,并对错误进行修正;
将检查修正后的源语言数据及其对应的目标语言数据分别进行分词处理,并对源语言数据进行词性标注后制成候选数据集;分别设置筛选参数,从候选数据集中筛选相应的源语言数据及其对应的目标语言数据,分别制成指代测试集、篇章级连接词测试集及省略测试集。
2.根据权利要求1所述的用于篇章级英译中机器翻译测试集的构建方法,其特征在于,从候选数据集中筛选指代测试集的筛选方法为:
设源语言数据中,单数名词词性标签为NN,复数名词词性标签为NNS,专有词性标签为NR;
第一筛选参数为:源语言数据中的某一句中包含有两义代词;该句的前一句包含有词性标签为NN、NNS和NR的名词词性的单词,该句对应的目标语言数据中包含“他们”,“她们”,“它们”,“你”,“你们”或物主形式;
第二筛选参数为:该句的前一句中包含单复数或男女性别的信息;
先筛选出符合第一筛选参数的源语言数据及其对应的目标语言数据;对符合第一筛选参数条件的数据再采用第二筛选参数进行筛选,将同时满足第一筛选参数及第二筛选参数的源语言数据及其对应的目标语言数据,集合制成指代测试集。
3.根据权利要求1所述的用于篇章级英译中机器翻译测试集的构建方法,其特征在于,从候选数据集中筛选篇章级连接词测试集的筛选方法为:
设源语言数据中,并列连接词词性标签为CC,前/后置连词词性标签为IN,特殊疑问词词性标签为WRB;
第三筛选参数为:源语言数据中的某一句中包含有多义连词;并且该多义连词的词性标签满足CC、IN、WRB中的一种;
先筛选出符合第三筛选参数的源语言数据及其对应的目标语言数据,再检查筛选出的目标语言数据中是否存在对应的连词翻译,如果有对应的连词翻译,则该句源语言数据及其对应的目标语言数据符合筛选条件;
如果没有,则继续检查目标语言数据的前一句是否包含连接词消除歧义所用的信息;如果有,则该句源语言数据及其对应的目标语言数据符合筛选条件;否则不符合;
对应每个连接词的每种含义,从候选数据集中,对应筛选出相同数量的符合上述筛选参数条件的数据,集合制成指代测试集。
4.根据权利要求1所述的用于篇章级英译中机器翻译测试集的构建方法,其特征在于,从候选数据集中筛选篇章级连接词测试集的筛选方法为:
设源语言数据中,系动词词性标签为VC,动词词性标签为VB,动词过去式为VBD;
第四筛选参数为:源语言数据中的某一句中包含有至少一个助动词;并且该助动词的词性满足VC、VB、VBD中的一个;
先筛选出符合第四筛选参数的源语言数据及其对应的目标语言数据;再对筛选出的数据中包含助动词的源语言句子及其所对应的中文翻译文本进行检查,确认对应该句的动词翻译与前一句中的动词翻译是否一致,将前后句动词翻译一致的源语言数据及其对应的目标语言数据,集合制成省略测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011248076.8/1.html,转载请声明来源钻瓜专利网。