[发明专利]文档翻译难度评价方法和装置有效
申请号: | 201510557921.2 | 申请日: | 2015-09-02 |
公开(公告)号: | CN105224524B | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 孙奇峰;黄瑾;谢婵娟 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
主分类号: | G06F40/51 | 分类号: | G06F40/51 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 张旭东 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 翻译 难度 评价 方法 装置 | ||
1.一种文档翻译难度评价方法,包括:
获取至少两篇已完成翻译的文档的译员行为数据,其中,所述文档在翻译前是经过文档翻译难度评价模型进行难度评价的文档;
以所述译员行为数据和所述文档的特征数据作为训练数据,对所述文档翻译难度评价模型进行训练;
根据训练后的文档翻译难度评价模型,对待翻译文档的翻译难度进行评价;
其中,所述译员行为数据包括以下至少之一:文档被译员浏览的次数、文档从提交到被认领的时间、文档从认领到翻译完成的时间;
其中,待翻译文档为文档认领界面中待翻译的文档或新提交至文档翻译服务器的文档;
其中,以所述译员行为数据和所述文档的特征数据作为训练数据,对所述文档翻译难度评价模型进行训练,包括:
将所述至少两篇已完成翻译的文档中的任意两篇文档作为一组训练素材;
根据当前组训练素材中的两篇文档的译员行为数据确定这两篇文档的性价比差异;
提取这两篇文档的特征数据;
将提取的特征数据和确定的性价比差异组成一组训练数据,根据所述一组训练数据对所述文档翻译难度评价模型进行训练。
2.根据权利要求1所述的方法,其中,根据所述一组训练数据对所述文档翻译难度评价模型进行训练,包括:
降低所述两篇文档中性价比高的文档的单位收益,和/或,提高所述两篇文档中性价比低的文档的单位收益;
根据调整完的单位收益和提取的所述两篇文档的特征数据,对所述文档翻译难度评价模型进行训练。
3.根据权利要求1所述的方法,其中,所述文档的特征数据包括以下至少之一:单词个数、字母数、音节数、短语在真实环境使用的频次、句子个数、句子的平均长度、和句子在文档中重复出现的次数。
4.一种文档翻译难度评价装置,包括:
行为数据获取模块,用于获取至少两篇已完成翻译的文档的译员行为数据,其中,所述文档在翻译前是经过文档翻译难度评价模型进行难度评价的文档;
训练模块,用于以所述译员行为数据和所述文档的特征数据作为训练数据,对所述文档翻译难度评价模型进行训练;
评价模块,用于根据训练后的文档翻译难度评价模型,对待翻译文档的翻译难度进行评价;
其中,所述译员行为数据包括以下至少之一:文档被译员浏览的次数、文档从提交到被认领的时间、文档从认领到翻译完成的时间;
其中,待翻译文档为文档认领界面中待翻译的文档或新提交至文档翻译服务器的文档;
其中,所述训练模块包括:
分组单元,用于将所述至少两篇已完成翻译的文档中的任意两篇文档作为一组训练素材;
性价比差异确定单元,用于根据当前组训练素材中的两篇文档的译员行为数据确定这两篇文档的性价比差异;
提取单元,用于提取这两篇文档的特征数据;
训练单元,用于将提取的特征数据和确定的性价比差异组成一组训练数据,根据所述一组训练数据对所述文档翻译难度评价模型进行训练。
5.根据权利要求4所述的装置,其中,所述训练单元包括:
调整子单元,用于降低所述两篇文档中性价比高的文档的单位收益,和/或,提高所述两篇文档中性价比低的文档的单位收益;
训练子单元,用于根据调整完的单位收益和提取的所述两篇文档的特征数据,对所述文档翻译难度评价模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510557921.2/1.html,转载请声明来源钻瓜专利网。