[发明专利]一种基于Transformer模型的老汉双语对齐方法在审
申请号: | 201910215271.1 | 申请日: | 2019-03-21 |
公开(公告)号: | CN110083826A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 周兰江;贾善崇;张建安 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Transformer模型的老汉双语对齐方法,属于自然语言处理和机器学习技术领域。双语语料库最为作为自然语言研究领域的重要语言资源,语言信息处理的研究深入,在语料的获取,处理有了长足的进步。本发明首先将篇章级对齐的语料作为输入,由于老挝语与中文的句子排序大致是一致的,所以可以先将篇章级的语料处理为单个的对齐语句,之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词,将分词的词语作为Encoder的输入,通过保留Encoder编码器对输入序列的中间输出结果,训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联,从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。 | ||
搜索关键词: | 对齐 语料 语句 双语语料库 老挝语 分词 自然语言 平行 机器学习技术 语言信息处理 自然语言处理 输出结果 输出序列 输入序列 语言资源 编码器 研究 句子 排序 抽取 词语 取出 关联 输出 中文 保留 学习 | ||
【主权项】:
1.一种基于Transformer模型的老汉双语对齐方法,其特征在于:具体步骤如下:Step1,将汉‑老双语语料预处理后进行数据集划分,其中,已对齐的训练集占90%,乱序测试集占10%;Step2,根据训练集以及测试集的句子,经过分词,统计其中的互异的词组,以及每个词组出现的次数,并按照出现次数的多少,从大到小排序;Step3,将分好词的源语言句子进行词嵌入Embedding的单词转换词向量,转换词向量之后进入到positional‑encoding部分,对输入的单词的词嵌入加上一个新的向量,即位置向量,来表示单词的位置信息;Step4,将经过位置信息标识的向量输入multi‑headed attention部分,其中包括多个Encoder,每个Encoder中在self‑Attention中,词向量通过与训练的权值矩阵相乘,得到Q/K/V矩阵,即Qurey/Key/Value矩阵,同时,为每个Encoder独立维护一套Q/K/V权值矩阵,为Decoder使用;Step5,通过Encoder的multi‑headed attention部分,我们将得到的多个Q/K/V矩阵,把这些矩阵组合形成一个最终的Z矩阵,其中包含了所有的Q/K/V权值,在Decoder部分,在Z的矩阵中找到相关K/V的权值带入Decoder的“Encoder‑Decoder attention”层中计算,通过Encoder部分的位置表示信息,最终得出一个向量的集合,通过最终的线性层linear和softmax层,通过概率选取最高的索引,然后找到一一对应的单词作为输出,最终得出译文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910215271.1/,转载请声明来源钻瓜专利网。