[发明专利]文本翻译方法、装置、设备和存储介质在审
申请号: | 202310367067.8 | 申请日: | 2023-04-04 |
公开(公告)号: | CN116415598A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 曾志贤;王伟;陈焕坤;张黔;张兴;吴志勇 | 申请(专利权)人: | 华润数字科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/279;G06F16/36;G06F16/33;G06N3/0442;G06N3/0455;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 周翀 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 翻译 方法 装置 设备 存储 介质 | ||
本发明实施例提供文本翻译方法、装置、设备和存储介质,涉及人工智能技术领域。该方法首先得到初始文本的第一文本特征向量,然后对初始文本进行实体识别得到实体信息构建的实体集,再利用实体信息映射到目标知识图谱的映射实体得到实体特征向量,接着获取掩码后得到的第二文本特征向量,根据实体特征向量和第二文本特征向量生成输入向量信息后,将输入向量信息送入输入翻译模型得到翻译文本。利用知识图谱引入丰富的结构化信息,消除实体信息的歧义后,将文本嵌入的文本特征和经过知识图谱映射之后的实体特征结合起来作为文本翻译的输入特征,从而在翻译过程中更好地学习到文本的完整语义表示,进而提升文本翻译的结果准确率。
技术领域
本发明涉及人工智能技术领域,尤其涉及文本翻译方法、装置、设备和存储介质。
背景技术
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,随着技术发展,机器翻译在促进政治、经济、文化交流等方面起到越来越重要的作用。
目前机器翻译的翻译质量优劣在于对文本歧义的处理结果。目前文本歧义主要体现在词汇层面上,例如一词多义现象。相关技术中在训练阶段采用人工校正标注的方式来提高输入翻译模型的翻译准确度,但是这种方式训练成本高,得到的输入翻译模型普适性差且翻译结果准确性并不理想。
发明内容
本申请实施例的主要目的在于提出文本翻译方法、装置、设备和存储介质,提高文本翻译的结果准确性。
为实现上述目的,本申请实施例的第一方面提出了一种文本翻译方法,包括:
对初始文本进行文本特征提取处理,得到所述初始文本的第一文本特征向量;
将所述初始文本输入实体识别模型进行实体识别得到至少一个实体信息,并根据所述实体信息构建实体集;
基于所述第一文本特征向量获取所述实体信息映射到目标知识图谱的映射实体,并获取所述映射实体的实体特征向量;
基于所述实体集对所述初始文本中所述实体信息进行掩码,得到掩码文本,并对所述掩码文本进行文本特征提取处理,得到所述初始文本的第二文本特征向量;
根据所述实体特征向量和所述第二文本特征向量生成输入向量信息;
将所述输入向量信息送入输入翻译模型得到所述初始文本的翻译文本。
在一些实施例,所述基于所述第一文本特征向量获取所述实体信息映射到目标知识图谱的映射实体,包括:
从所述目标知识图谱中确定所述实体信息的候选实体集合,所述候选集合包括至少一个候选实体;
根据所述第一文本特征向量计算每个所述候选实体的映射向量;
将所述第一文本特征向量和所述映射向量输入相似度计算模型计算所述映射向量的候选分值;
对所述候选分值进行排序,根据排序结果从所述映射向量中选取目标映射向量,将所述目标映射向量的候选实体作为所述映射实体。
在一些实施例,所述目标知识图谱包括:多个实体;所述从所述目标知识图谱中确定所述实体信息的候选实体集合,包括:
计算所述实体信息与每个所述实体的文本编辑距离;
对所述文本编辑距离进行排序,根据排序结果选取预设选取数量的所述实体作为所述实体信息的所述候选实体。
在一些实施例,所述根据所述第一文本特征向量计算每个所述候选实体的映射向量,包括:
计算所述实体信息的实体向量;
计算所述候选实体的候选向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华润数字科技有限公司,未经华润数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310367067.8/2.html,转载请声明来源钻瓜专利网。