[发明专利]领域翻译处理方法、装置及设备有效
申请号: | 201911352107.1 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111126087B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 张睿卿;熊皓;何中军;李芝;吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F16/33 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 领域 翻译 处理 方法 装置 设备 | ||
本申请提出了一种领域翻译处理方法、装置及设备,涉及人工智能技术领域,具体实现方案为:获取目标领域的关键词集合,关键词集合中包括目标语言的关键词;根据关键词进行检索,获取目标语言的第一语料;根据第一语料判断是否满足预设条件,若满足预设条件,则根据第一语料进行回译处理,获取源语言的第二语料;根据第一语料和第二语料调整预设模型的处理参数,生成目标领域的领域翻译模型。由此,实现领域自适应翻译,减少人工参与量,降低人工成本,提高处理效率。
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提出一种领域翻译处理方法、装置及设备。
背景技术
目前,通用的机器翻译能够实现将源语言的文本翻译至到目标语言,而对于某一领域相关的文本进行翻译时,由于多义词以及对文本整体不理解等因素,在针对特定领域的文本内容进行翻译时会出现翻译错误、翻译不连贯等问题。因此,如何在领域翻译时得到更准确的翻译结果是机器翻译的一个研究方向。
相关技术中,通常通过人工方式标注领域内的平行语料,根据标注的平行语料进行翻译模型微调,相关方案人工标注工作量大,人力成本高,效率低下。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种领域翻译处理方法,以实现领域自适应翻译,减少人工参与量,降低人工成本,提高处理效率。
本申请的第二个目的在于提出一种领域翻译处理装置。
本申请的第三个目的在于提出一种电子设备。
本申请的第四个目的在于提出一种计算机可读存储介质。
本申请第一方面实施例提出了一种领域翻译处理方法,包括:
获取目标领域的关键词集合,所述关键词集合中包括目标语言的关键词;
根据所述关键词进行检索,获取所述目标语言的第一语料;
根据所述第一语料判断是否满足预设条件,若满足所述预设条件,则根据所述第一语料进行回译处理,获取源语言的第二语料;
根据所述第一语料和所述第二语料调整预设模型的处理参数,生成所述目标领域的领域翻译模型。
另外,根据本申请上述实施例的领域翻译处理方法还可以具有如下附加技术特征:
可选地,在根据所述第一语料判断是否满足预设条件之后,还包括:若不满足所述预设条件,则根据所述第一语料提取候选关键词;根据所述候选关键词的词频和逆文本频率指数,从所述候选关键词中确定目标关键词,将所述目标关键词添加至所述关键词集合中。
可选地,在根据所述关键词进行检索之前,还包括:获取所述关键词的词向量,根据所述词向量对所述关键词进行分类;
所述根据所述关键词进行检索,包括:对于分类后的每一类别,抽取至少一个关键词,根据所述至少一个关键词进行检索。
可选地,所述根据所述第一语料判断是否满足预设条件,包括:获取所述第一语料的语句数量,若所述语句数量大于预设阈值,则确定满足所述预设条件。
可选地,所述根据所述第一语料和所述第二语料调整预设模型的处理参数,生成所述目标领域的领域翻译模型,包括:根据所述第一语料和所述第二语料训练所述预设模型处理参数,生成调整模型;根据所述调整模型和所述预设模型进行模型平均处理,生成所述领域翻译模型。
本申请第二方面实施例提出了一种领域翻译处理装置,包括:
获取模块,用于获取目标领域的关键词集合,所述关键词集合中包括目标语言的关键词;
检索模块,用于根据所述关键词进行检索,获取所述目标语言的第一语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911352107.1/2.html,转载请声明来源钻瓜专利网。