[发明专利]一种引入分层形声特征的中文词向量表示学习方法有效

申请号：	201910549589.3	申请日：	2019-06-24
公开（公告）号：	CN110427608B	公开（公告）日：	2021-06-08
发明（设计）人：	张寅;毛晨炀;庄越挺	申请（专利权）人：	浙江大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F40/216;G06F16/33;G06F16/951;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	傅朝栋;张法高
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种引入分层形声特征文词向量表示学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种引入分层形声特征的中文词向量表示学习方法，其特征在于，步骤如下：

1)获取中文词语形声特征的语料基础，所述的语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法、仓颉标识、Unicode、规范汉字编号；

2)对于给定的中文文本进行预处理，形成训练语料；然后针对训练语料构建模型输入，构建过程如下：

2.1)对训练语料从形态和发音两个维度，以及从词语、汉字和子字三个层级构建中文词语分层形声特征；在词级别上，用词语本身和词语拼音代表词语层级上的特征；在字级别上，用汉字的字形和汉字拼音代表汉字层级上的特征；在子字级别上，用汉字部件和汉字拼音的声母和韵母来代表子字层级上的特征；

2.2)抽取训练语料中的命名实体；若训练语料中的词语为命名实体，则将其分层形声特征中的汉字层级及子字层级上的特征去除，仅采用词语层级上的特征作为其分层形声特征；

2.3)通过注意力机制，计算词语与汉字、子字部分的相似度，从而改变单个汉字、子字特征对于整个词语的贡献；

2.4)模型的输入为中心词w_t和上下文{w_t-n，...，w_t-1，w_t+1...，w_t+n}，对于中心词采用经过注意力机制后的词语层级、汉字层级和子字层级的特征作为输入，对于上下文仅采用经过注意力机制前的汉字层级和子字层级的特征作为输入；

3)采用解耦预测和混合预测结合的方式进行模型训练，得到中文词向量的表示；

所述的步骤2.1)中，构建中文词语分层形声特征的具体方法为：

对于给定的中文文本，设滑动窗口大小为2n+1，n为调节参数，对句子sentence＝{w₁，w₂，...，w_M}进行子采样，其中M为句子中的词语总数，得到单个训练样本为{w_t-n，...，w_t，...，w_t+n}，中心词为w_t，上下文为{w_t-n，...，w_t-1，w_t+1...，w_t+n}；

对于词语w_i，其词语层级的特征为：

word_level_i＝lookup(w_i)+lookup(wpinyin_i)

式中：wpinyin_i表示词语w_i的拼音；lookup(X)函数代表对在向量表中查询X特征对应的向量，查询得到的向量记作v_X；

词语w_i的汉字序列长度为N_i，则其汉字层级的特征为：

式中：char_i，j表示词语w_i的汉字序列中第j个汉字，cpinyin_i，j表示词语w_i的汉字序列中第j个汉字的汉字拼音；

词语w_i的部件序列长度为Mc_i，则该词语子字层级的部件特征为：

式中：cmp_i，j表示词语w_i的部件序列中第j个部件；

词语w_i的声母和韵母序列总长度为Ma_i，则该词语子字层级的声母和韵母特征为：

式中：alp_i，j表示词语w_i的部件序列中第j个声母或韵母；

所述的步骤2.3)中，通过注意力机制，计算词语与汉字、子字部分的相似度，从而改变单个汉字、子字特征对于整个词语的贡献的具体方法为：

式中：a_char_level_i表示经过注意力机制后的汉字层级上的特征，a_subchar_cmp_i表示经过注意力机制后的子字层级上的部件特征，a_subchar_alp_i表示经过注意力机制后的子字层级上的声母和韵母特征；softmax(·)表示softmax函数；

所述的步骤3)的具体实现方式为：