[发明专利]一种基于词典和seq2seq预训练机制的中医古籍翻译方法有效
申请号: | 201910020459.0 | 申请日: | 2019-01-09 |
公开(公告)号: | CN109740169B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 高升;徐亨如;李思;徐雅静 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/129 | 分类号: | G06F40/129;G06F40/242;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词典 seq2seq 训练 机制 中医 古籍 翻译 方法 | ||
1.一种基于词典和seq2seq预训练机制的中医古籍翻译方法,其特征在于,所述方法包含以下结构和步骤:
第一部分,训练通用的seq2seq古文翻译模型,
(1.1)古文和现代汉语词语分别向量化,分别建立古文和现代汉语的词典,对输入文本的词语进行映射,将词语转换为相应的词向量;
(1.2)对步骤(1.1)得到的古文各词语词向量进行列拼接,得到编码器输入;
(1.3)编码阶段,使用循环神经网络对古文进行语义信息编码,将步骤(1.2)得到的向量作为编码器的输入,编码成一个定长的语义向量context;
(1.4)解码阶段,用步骤(1.3)得到的context向量初始化用于解码的循环神经网络,使用特定的开始符,作为解码器第一时刻的输入,开始解码;
(1.5)解码直至输出停止符,列拼接步骤(1.3)得到的语义向量context和上一时刻解码器的输出,得到下一时刻的解码器输入,输入至解码器,将解码器输出经过前向神经网络得到翻译结果,解码直至解码器输出停止符,解码结束;
第二部分,基于中医字典,在中医专业知识指导下,训练针对中医典籍的古文翻译模型,
(2.1)由第一部分得到的古文词表和现代汉语词表,将中医典籍的古文和现代汉语映射成词向量;
(2.2)对步骤(2.1)得到的古文的文本矩阵进行列拼接,得到编码器输入,对于中医古文的专有名词,由《中医名词词典》,得到现代汉语专业解释,并根据已有的现代汉语词表,将现代汉语专业解释映射成词向量;
(2.3)重载第一部分训练得到的循环神经网络模型,加入中医专业知识编码结构,即用循环神经单元对步骤(2.2)得到的现代汉语专业解释词向量进行处理,拼接正向和反向最后一个时刻循环神经网络的隐层矩阵得到中医专业知识编码向量,并按第一部分的步骤二-步骤五进行训练,和第一部分不同的是,步骤三得到的定长向量先和中医专业知识编码向量列连接,再经过一个前向神经网络,得到指导向量,解码阶段的输入由上一个时刻解码器的输出和指导向量列拼接得到。
2.如权利要求1所述的方法,其特征在于,所述第二部分步骤(2.2)具体包括:
(2.2.1)根据《中医名词词典》,提取出中医古文专有名词;
(2.2.2)根据《中医名词词典》,得到(2.2.1)中中医古文专有名词的现代汉语专业解释;
(2.2.3)根据(1.1)得到的现代汉语词表,将现代汉语专业解释映射成词向量。
3.如权利要求1所述的方法,其特征在于,第二部分编码器、解码器的初始参数为第一部分编码器、解码器的参数,且参数可更新、可训练。
4.如权利要求1所述的方法,其特征在于,第二部分解码器输入由指导向量和解码器上一个时刻的输出列拼接得到,其中指导向量由步骤(1.3)得到的context向量和步骤(2.3)得到的中医专业知识编码向量列拼接后经过一个前向神经网络得到。
5.如权利要求1所述的方法,其特征在于,网络第一部分的训练语料为具有古文-现代汉语平行语料的语料,包括古诗、古词、古文,网络第二部分的训练语料为《黄帝内经》、《难经》、《伤寒杂病论》、《神农本草经》四部经典中医典籍,网络第二部分的中医专业知识词典为《中医名词词典》。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910020459.0/1.html,转载请声明来源钻瓜专利网。