[发明专利]基于零代词补齐的汉越数据增强方法在审
申请号: | 202210374347.7 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114676709A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 余正涛;王麒鼎 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/284;G06F40/268;G06F40/253;G06N3/04;G06N3/08 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 代词 数据 增强 方法 | ||
1.基于零代词补齐的汉越数据增强方法,其特征在于:所述方法的具体步骤如下:
Step1、数据收集处理:通过网络爬虫技术爬取收集并构建英汉、英越双语平行数据,利用矩阵对齐方法找出汉语、越南语中缺失的代词,并利用英语平行语料中的对应代词,将汉语、越南语中缺失的代词标注补齐,得到零代词信息标注的汉语、越南语单语数据集;缺失的代词即为零代词;
Step2、进行零代词补齐,零代词补齐包括零代词位置预测、零代词特征集生成和零代词预测,把预测出的零代词放入源句子进行零代词补齐从而对汉越数据进行增强:
零代词位置预测通过词嵌入和位置嵌入分别对正文和上下文进行特征编码,利用Transformer编码器提取特征,其中正文和上下文共享编码端以减少参数;利用上下文注意力机制对正文表征约束,将Transformer编码器得到隐状态输入CRF模型中进行标注,得到零代词位置信息;
零代词特征集生成是利用零代词位置信息生成与零代词相关的词汇、句法、上下文特征集合;
零代词预测是重新利用Transformer编码端对正文进行编码,同时与零代词特征集做注意力计算,以提升零代词信息表征,最后将注意力计算后的输入表征通过一个多分类器模块,经过线性变换和归一个处理得到分类结果,即零代词预测结果。
2.根据权利要求1所述的基于零代词补齐的汉越数据增强方法,其特征在于:所述Step1的具体步骤为:
Step1.1、通过网络爬虫技术爬取英汉、英越双语字幕文件,解析字幕文件,对语料初步预处理,构建英汉、英越双语平行数据;
Step1.2、利用英语不省略代词的特性,采用有监督的代词补齐方法;通过词矩阵对齐找出汉语、越南语中缺失的代词,并利用英语平行语料中的对应代词,将汉语、越南语中缺失的代词补齐;
Step1.3、采用人工标注的方法,对补齐了代词的汉语、越南语打上标签;单词的标签一共只有两种L={D,N},分别表示缺失代词和没有缺失代词,将代词缺失的后一个单词位置标注为D,其他单词都标注为N。
3.根据权利要求1所述的基于零代词补齐的汉越数据增强方法,其特征在于:所述Step2中,零代词位置预测包括:
Step2.1、零代词位置预测的任务是找到句子中是否缺失代词,并将代词缺失位置标注出来;
设X=x(1),..,x(k),..,x(K)表示K个源句子组成的源语言文档,表示第k个源句子包含I个词;使用transformer编码模块对正文的特征嵌入进行编码;为了能够利用序列的顺序,在编码模块中将位置编码添加到词嵌入表征中,位置编码与词嵌入表征具有相同的维数,编码模块核心是自注意力机制,多头注意力模块计算时需要将输入表征分别处理成Q、K、V,具体如下:
E=E(x1,x2,...,xI) (1)
E=Q=K=V (2)
其中,E为正文中当前句的词嵌入表征,d表示正文中当前句的词向量维度,Q,K,V∈RI×d分别为查询向量、键向量、值向量,为缩放因子;
多头注意力通过不同的线性投影将Q、K、V进行h次线性投影,然后h次投影并行执行缩放点积注意,最后将这些注意结果串联起来再次获得新的表示;
headi=Attention(QWiQ,KWiK,VWiV) (4)
H=MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO (5)
其中,H∈RI×d为正文编码后的输出;WO∈Rd×d为训练的参数,dk∈d/h;
利用上下文编码模块进行上下文特征编码:
与标准的Transformer编码器不同的是,上下文编码模块多了一个多头上下文注意力子层来融合上下文信息;为了减少计算成本,采用共享编码器的结构;编码器先编码当前句上下文,上下文注意力子层不参与此过程,第二步编码当前句时,当前句自注意力子层和上下文注意力子层同时参与计算利用上下文信息约束正文中当前句的表征,上下文注意力子层的输入KCon,VCon来自于上下文的编码输出,Q来自于当前句的注意力子层的输出,当前句的编码输出作为隐状态进行下一步计算;
H2=Attention(Q,KCon,VCon) (6)
其中H2表示上下文注意力模块输出隐状态;再将进行一个前馈神经网络的变换,最后将隐状态表征放入到CRF模型中,进行一个序列标注的工作,最后得到一个标签序列Y=(y1,y2,y3,...,yt,...,yn),其中每个yt对应着每个单词xt的标签;单词的标签一共只有两种L={D,N},分别表示缺失代词和没有缺失代词,将代词缺失的后一个单词位置标注为D,其他单词都标注为N,最终将预测的结果和真实的标签计算损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210374347.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置