[发明专利]一种翻译数据标注辅助系统、方法、设备及存储介质在审
申请号: | 202211653454.X | 申请日: | 2022-12-21 |
公开(公告)号: | CN115775001A | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 张为泰;叶忠义;刘俊华;杜俊 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F40/47 | 分类号: | G06F40/47;G06F40/117;G06Q10/0631;G06N3/091 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;付久春 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 翻译 数据 标注 辅助 系统 方法 设备 存储 介质 | ||
1.一种翻译数据标注辅助系统,其特征在于,包括:
机器翻译候选结果挑选模块、译员翻译能力自适应任务分配模块、译员水平动态质检模块和多策略主动学习迭代更新模块;其中,
所述机器翻译候选结果挑选模块,能对接收的待翻译句子通过多个机器翻译模型进行不同的翻译得出多个候选翻译结果,并通过近似检索方式从历史标注库里检索出与待翻译句子最接近句子的标注结果,再通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文;
所述译员翻译能力自适应任务分配模块,与所述机器翻译候选结果挑选模块的输出端连接,能根据预先评估得出的各译员的翻译能力值,将所述机器翻译候选结果挑选模块输出的最佳候选译文分配给翻译能力值匹配的译员进行修改,并接收各译员修改后的译文作为最终人工翻译数据;
所述译员水平动态质检模块,与所述译员翻译能力自适应任务分配模块的输出端连接,能接收所述译员翻译能力自适应任务分配模块输出的各译员的最终人工翻译数据,并基于各译员的翻译能力值动态抽选不同量级的最终人工翻译数据来对标注数据进行质检得出质检完的翻译结果数据;
所述多策略主动学习迭代更新模块,将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习。
2.根据权利要求1所述的翻译数据标注辅助系统,其特征在于,所述机器翻译候选结果挑选模块包括:
多个机器翻译模型、近似检索子模块和自对比子模块;其中,
多个机器翻译模型并列设置,能对接收的同一个待翻译句子进行不同的翻译得出多个候选翻译结果;
所述近似检索子模块,分别与各机器翻译模型的输出端连接,能通过近似检索方式从历史标注库里检索出与待翻译句子最接近句子的标注结果;
所述自对比子模块,与所述近似检索子模块的输出端连接,能通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文;
所述译员翻译能力自适应任务分配模块包括:
译员能力评估子模块、翻译任务难度评估子模块和翻译任务分配子模块;其中,
所述译员能力评估子模块,与所述翻译任务分配子模块连接,能根据译员的翻译年限和翻译等级确定译员初始的能力值,根据译员初始的能力值为译员随机分配不同难度值的翻译任务,对译员完成的翻译任务进行人工质检得出翻译合格率,若合格率大于98%则加大后续翻译任务难度值,若合格率小于92%则减小后续翻译任务难度值,根据后续得出的质检合格率更新译员的能力值;
所述翻译任务难度评估子模块,与所述翻译任务分配子模块连接,能计算出当前翻译任务的当前解码结果翻译质量分,根据当前解码结果翻译质量分确定对应翻译任务的难度值;
所述翻译任务分配子模块,根据当前翻译任务难度值和译员能力值,计算得出该翻译任务预估能力值,将该翻译任务分配给能力值与该翻译任务预估译员能力值最接近的译员;
所述译员水平动态质检模块按以下方式基于各译员的翻译水平动态抽选不同量级的最终人工翻译数据来进行人工质检,包括:
依据下面公式计算需要抽检的样本数量samplei:
samplei=200+100*(1-sigmoid(tpi))+50*random();
其中,tpi为第i个译员的能力值;sigmoid()为激活函数;random()为产生0到1之间随机数的随机数生成函数;
所述多策略主动学习迭代更新模块按以下方式将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习,包括:
筛选出候选翻译结果的机器翻译模型得分最差的10%数据的人工标注结果放入待训练候选数据集中;
对候选翻译结果的使用不同dropout比例机器翻译模型得分取方差,选取方差最大的10%数据的人工标注结果放入待训练候选数据集中;
基于翻译质量评估模型对候选翻译结果选取得分最低的10%数据的人工标注结果放入待训练候选数据集中;
通过上述得出的待训练候选集合对机器翻译模型和质量评估模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211653454.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:回收装置
- 下一篇:干细胞外泌体在制备用于治疗铀中毒的药物中的应用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置