[发明专利]一种基于提示的机器翻译方法在审

申请号：	202211347974.8	申请日：	2022-10-31
公开（公告）号：	CN115906878A	公开（公告）日：	2023-04-04
发明（设计）人：	迟雨桐;冯少辉;李鹏	申请（专利权）人：	北京中科智加科技有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06N3/0455;G06N3/08
代理公司：	北京天达知识产权代理事务所有限公司 11386	代理人：	庞许倩
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于提示机器翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于提示的机器翻译方法，其特征在于，包括如下步骤：

获取待翻译文本x，识别得到待翻译文本中包括的名词集合S_word；

获得所述名词集合S_word中所有名词对应的名词译文，组成译文集合S_word-trans；

待翻译文本x、名词集合S_word和名词译文集合S_word-trans通过数据构建，得到翻译模型的输入文本x_input及翻译模型的调节矩阵M；其中，所述输入文本包括提示，所述提示为名词译文集合S_word-trans中的所有译文；

使用翻译模型对x_input进行翻译，使用调节矩阵M调节模型的注意力计算，最终输出译文。

2.根据权利要求1的方法，其特征在于，所述数据构建，包括如下步骤：

对所述待翻译文本进行数据清洗，得到清洗后的文本x₀；

所述文本x₀其后依次拼接名词译文集合S_word-trans中的所有译文，得到翻译模型的输入文本x_input；

构建所述输入文本x_input的对应位置关系的列表List_index，根据所述列表List_index确定构建调节矩阵中元素的取值M_ij，起始和终止行列插入特殊符号，得到所述调节矩阵M。

3.根据权利要求1或2的方法，所述翻译模型，通过如下步骤训练得到：

获取所需翻译的两个语种的平行语料数据，得到数据集D；

识别所述数据集D中的原文和译文，得到原文名词集合S_word和译文名词集合S_word-trans；

通过数据构建得到D中所有数据的训练样本X_input和所有数据对应的调节矩阵M_train，其中，X_input＝[x₁,x₂,…,x_g]，M_train＝[M₁,M₂,…,M_g]，单条训练样本x_i(i∈[1,2,…,g])是增加译文提示后文本x_input和目标译文x_gold的文本对，g为数据条数；