[发明专利]一种翻译数据标注辅助系统、方法、设备及存储介质在审

专利信息
申请号: 202211653454.X 申请日: 2022-12-21
公开(公告)号: CN115775001A 公开(公告)日: 2023-03-10
发明(设计)人: 张为泰;叶忠义;刘俊华;杜俊 申请(专利权)人: 中国科学技术大学
主分类号: G06F40/47 分类号: G06F40/47;G06F40/117;G06Q10/0631;G06N3/091
代理公司: 北京凯特来知识产权代理有限公司 11260 代理人: 郑立明;付久春
地址: 230026 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 翻译 数据 标注 辅助 系统 方法 设备 存储 介质
【权利要求书】:

1.一种翻译数据标注辅助系统,其特征在于,包括:

机器翻译候选结果挑选模块、译员翻译能力自适应任务分配模块、译员水平动态质检模块和多策略主动学习迭代更新模块;其中,

所述机器翻译候选结果挑选模块,能对接收的待翻译句子通过多个机器翻译模型进行不同的翻译得出多个候选翻译结果,并通过近似检索方式从历史标注库里检索出与待翻译句子最接近句子的标注结果,再通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文;

所述译员翻译能力自适应任务分配模块,与所述机器翻译候选结果挑选模块的输出端连接,能根据预先评估得出的各译员的翻译能力值,将所述机器翻译候选结果挑选模块输出的最佳候选译文分配给翻译能力值匹配的译员进行修改,并接收各译员修改后的译文作为最终人工翻译数据;

所述译员水平动态质检模块,与所述译员翻译能力自适应任务分配模块的输出端连接,能接收所述译员翻译能力自适应任务分配模块输出的各译员的最终人工翻译数据,并基于各译员的翻译能力值动态抽选不同量级的最终人工翻译数据来对标注数据进行质检得出质检完的翻译结果数据;

所述多策略主动学习迭代更新模块,将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习。

2.根据权利要求1所述的翻译数据标注辅助系统,其特征在于,所述机器翻译候选结果挑选模块包括:

多个机器翻译模型、近似检索子模块和自对比子模块;其中,

多个机器翻译模型并列设置,能对接收的同一个待翻译句子进行不同的翻译得出多个候选翻译结果;

所述近似检索子模块,分别与各机器翻译模型的输出端连接,能通过近似检索方式从历史标注库里检索出与待翻译句子最接近句子的标注结果;

所述自对比子模块,与所述近似检索子模块的输出端连接,能通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文;

所述译员翻译能力自适应任务分配模块包括:

译员能力评估子模块、翻译任务难度评估子模块和翻译任务分配子模块;其中,

所述译员能力评估子模块,与所述翻译任务分配子模块连接,能根据译员的翻译年限和翻译等级确定译员初始的能力值,根据译员初始的能力值为译员随机分配不同难度值的翻译任务,对译员完成的翻译任务进行人工质检得出翻译合格率,若合格率大于98%则加大后续翻译任务难度值,若合格率小于92%则减小后续翻译任务难度值,根据后续得出的质检合格率更新译员的能力值;

所述翻译任务难度评估子模块,与所述翻译任务分配子模块连接,能计算出当前翻译任务的当前解码结果翻译质量分,根据当前解码结果翻译质量分确定对应翻译任务的难度值;

所述翻译任务分配子模块,根据当前翻译任务难度值和译员能力值,计算得出该翻译任务预估能力值,将该翻译任务分配给能力值与该翻译任务预估译员能力值最接近的译员;

所述译员水平动态质检模块按以下方式基于各译员的翻译水平动态抽选不同量级的最终人工翻译数据来进行人工质检,包括:

依据下面公式计算需要抽检的样本数量samplei

samplei=200+100*(1-sigmoid(tpi))+50*random();

其中,tpi为第i个译员的能力值;sigmoid()为激活函数;random()为产生0到1之间随机数的随机数生成函数;

所述多策略主动学习迭代更新模块按以下方式将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习,包括:

筛选出候选翻译结果的机器翻译模型得分最差的10%数据的人工标注结果放入待训练候选数据集中;

对候选翻译结果的使用不同dropout比例机器翻译模型得分取方差,选取方差最大的10%数据的人工标注结果放入待训练候选数据集中;

基于翻译质量评估模型对候选翻译结果选取得分最低的10%数据的人工标注结果放入待训练候选数据集中;

通过上述得出的待训练候选集合对机器翻译模型和质量评估模型进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211653454.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top