[发明专利]一种引入分层形声特征的中文词向量表示学习方法有效
申请号: | 201910549589.3 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110427608B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 张寅;毛晨炀;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/216;G06F16/33;G06F16/951;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 引入 分层 形声 特征 文词 向量 表示 学习方法 | ||
1.一种引入分层形声特征的中文词向量表示学习方法,其特征在于,步骤如下:
1)获取中文词语形声特征的语料基础,所述的语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法、仓颉标识、Unicode、规范汉字编号;
2)对于给定的中文文本进行预处理,形成训练语料;然后针对训练语料构建模型输入,构建过程如下:
2.1)对训练语料从形态和发音两个维度,以及从词语、汉字和子字三个层级构建中文词语分层形声特征;在词级别上,用词语本身和词语拼音代表词语层级上的特征;在字级别上,用汉字的字形和汉字拼音代表汉字层级上的特征;在子字级别上,用汉字部件和汉字拼音的声母和韵母来代表子字层级上的特征;
2.2)抽取训练语料中的命名实体;若训练语料中的词语为命名实体,则将其分层形声特征中的汉字层级及子字层级上的特征去除,仅采用词语层级上的特征作为其分层形声特征;
2.3)通过注意力机制,计算词语与汉字、子字部分的相似度,从而改变单个汉字、子字特征对于整个词语的贡献;
2.4)模型的输入为中心词wt和上下文{wt-n,...,wt-1,wt+1...,wt+n},对于中心词采用经过注意力机制后的词语层级、汉字层级和子字层级的特征作为输入,对于上下文仅采用经过注意力机制前的汉字层级和子字层级的特征作为输入;
3)采用解耦预测和混合预测结合的方式进行模型训练,得到中文词向量的表示;
所述的步骤2.1)中,构建中文词语分层形声特征的具体方法为:
对于给定的中文文本,设滑动窗口大小为2n+1,n为调节参数,对句子sentence={w1,w2,...,wM}进行子采样,其中M为句子中的词语总数,得到单个训练样本为{wt-n,...,wt,...,wt+n},中心词为wt,上下文为{wt-n,...,wt-1,wt+1...,wt+n};
对于词语wi,其词语层级的特征为:
word_leveli=lookup(wi)+lookup(wpinyini)
式中:wpinyini表示词语wi的拼音;lookup(X)函数代表对在向量表中查询X特征对应的向量,查询得到的向量记作vX;
词语wi的汉字序列长度为Ni,则其汉字层级的特征为:
式中:chari,j表示词语wi的汉字序列中第j个汉字,cpinyini,j表示词语wi的汉字序列中第j个汉字的汉字拼音;
词语wi的部件序列长度为Mci,则该词语子字层级的部件特征为:
式中:cmpi,j表示词语wi的部件序列中第j个部件;
词语wi的声母和韵母序列总长度为Mai,则该词语子字层级的声母和韵母特征为:
式中:alpi,j表示词语wi的部件序列中第j个声母或韵母;
所述的步骤2.3)中,通过注意力机制,计算词语与汉字、子字部分的相似度,从而改变单个汉字、子字特征对于整个词语的贡献的具体方法为:
式中:a_char_leveli表示经过注意力机制后的汉字层级上的特征,a_subchar_cmpi表示经过注意力机制后的子字层级上的部件特征,a_subchar_alpi表示经过注意力机制后的子字层级上的声母和韵母特征;softmax(·)表示softmax函数;
所述的步骤3)的具体实现方式为:
3.1)在解耦预测部分中,将中心词和上下文的特征单独拆开,各部分特征单独预测上下文;
首先,对于中心词wt和上下文wj的第k个输入特征ht,j,k,预测的条件概率被定义为:
式中:V表示整个词语表;
然后,将所有输入特征的上下文的条件概率的对数似然求和,作为解耦预测部分的目标函数:
Ld(wj|wt)=∑klogp(wj|ht,j,k)
对于以wt为中心词的整个窗口样本的目标函数为:
3.2)在混合预测部分中,将汉字层级和子字层级的特征添加到词语上作为特征,来预测上下文词语;
对于所有输入特征ht,j,k求均值:
式中:N表示中心词wt和上下文wj的输入特征数量;
混合特征部分所预测的条件概率被定义为:
然后将该条件概率p(wj|at,j)的对数似然作为混合特征部分的目标函数:
Lm(wj|wt)=log p(wj|at,j)
对于以wt为中心词的整个窗口样本的目标函数为:
3.3)最终将解耦预测部分和混合预测部分的模型目标函数相加,作为模型的总目标函数:
Ltotal(wt)=Ld(wt)+Lm(wt)
3.4)基于该总目标函数对模型进行训练,得到中文词向量的表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910549589.3/1.html,转载请声明来源钻瓜专利网。