[发明专利]融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置有效

申请号：	202010980757.7	申请日：	2020-09-17
公开（公告）号：	CN112287688B	公开（公告）日：	2022-02-11
发明（设计）人：	毛存礼;高旭;余正涛;王振晗;高盛祥;满志博	申请（专利权）人：	昆明理工大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/289;G06F40/284;G06F40/205;G06F16/35;G06F16/951
代理公司：	昆明人从众知识产权代理有限公司 53204	代理人：	何娇
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	融合训练语言模型结构特征双语平行抽取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法，其特征在于：所述方法包括：

Step1、数据预处理构建英-缅平行句对数据集；

Step2、利用基于多语言预训练语言模型训练英语和缅甸语词向量，以共享语义空间；

Step3、通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型；

Step4、收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度，并设定相似度阈值来抽取英-缅双语平行句对；

所述步骤Step1的具体步骤为：

Step1.1、利用网络爬虫从英-缅双语平行网站爬取包含新闻类、经济类领域的英-缅双语文本，进行句子切分，去掉数据集中包含非英语和缅甸语字符的数据，通过人工整理得到共494816条英-缅平行数据；

Step1.2、再利用神经联合训练模型实现缅甸语的音节切分、分词及词性标记任务；

所述步骤Step3的具体步骤：

Step3.1、采用孪生神经网络结构对英-缅句子进行编码表示，将预训练的英语和缅甸语词向量作为孪生神经网络的输入，通过共享权重的孪生神经网络得到同一语义空间中编码后的英语、缅甸语句子向量h^en和h^my；

Step3.2、分别对英语、缅甸语句子的长度进行编码，得到和并将编码后的句子长度特征融合到孪生网络编码中：

Step3.3、通过英语和缅甸语的最终向量h^′en和h^′my表示预测两个句子平行的概率，通过损失函数反向传播训练模型，提升模型的性能；

通过预训练语言模型先得到构成每个缅甸语词语的各个字符级的向量，然后再将字符级的向量进行组合进而得到缅甸语词级别的语义向量，这样，用于更准确的获得缅甸语词语的语义信息。

2.根据权利要求1所述的融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法，其特征在于：所述步骤Step2中：

利用基于多语言预训练语言模型MBERT微调MBERT中的参数信息，训练英语和缅甸语的双语词向量，使两种语言能够共享语义空间；

其中，基于MBERT预训练英语词向量时，由于英语文本以空格分词，因此Wordpiece分词后预训练的词向量直接作为英语词汇的词向量。

3.根据权利要求1所述的融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法，其特征在于：所述步骤Step4的具体步骤为：

Step4.1、从互联网上的英-缅双语网站中收集英-缅双语文本，通过双语实体词典对文本进行分类，将含有相同实体信息的文本作为待抽取的候选文本；

Step4.2、将分好类的待抽取文本进行分句，缅甸语以“II”分句，英语以“.”分句；之后将英语中的每一句与缅甸语中的每一句进行配对，使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度，并设定相似度0.9作为英-缅双语平行句对的阈值来抽取英-缅双语平行句对。

4.一种融合预训练语言模型及结构特征的英-缅平行句对抽取装置，其特征在于，所述装置包括：

数据预处理模块，用于数据预处理构建英-缅平行句对数据集；

预训练词向量模块，用于利用基于多语言预训练语言模型训练英语和缅甸语词向量，以共享语义空间；

训练英-缅平行句对抽取模型模块，用于通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型；

平行句对分类模块，用于收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度，并设定相似度阈值来抽取英-缅双语平行句对；

所述数据预处理模块还包括用于完成下述操作：

利用网络爬虫从英-缅双语平行网站爬取包含新闻类、经济类领域的英-缅双语文本，进行句子切分，去掉数据集中包含非英语和缅甸语字符的数据，通过人工整理得到共494816条英-缅平行数据；

再利用神经联合训练模型实现缅甸语的音节切分、分词及词性标记任务；

所述训练英-缅平行句对抽取模型模块还包括用于完成下述操作：

采用孪生神经网络结构对英-缅句子进行编码表示，将预训练的英语和缅甸语词向量作为孪生神经网络的输入，通过共享权重的孪生神经网络得到同一语义空间中编码后的英语、缅甸语句子向量h^en和h^my；

分别对英语、缅甸语句子的长度进行编码，得到和并将编码后的句子长度特征融合到孪生网络编码中：

通过英语和缅甸语的最终向量h^0en和h^′my表示预测两个句子平行的概率，通过损失函数反向传播训练模型，提升模型的性能；

所述预训练词向量模块还包括用于：通过预训练语言模型先得到构成每个缅甸语词语的各个字符级的向量，然后再将字符级的向量进行组合进而得到缅甸语词级别的语义向量，这样，用于更准确的获得缅甸语词语的语义信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010980757.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置有效

专利文献下载