[发明专利]一种引入分层形声特征的中文词向量表示学习方法有效
申请号: | 201910549589.3 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110427608B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 张寅;毛晨炀;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/216;G06F16/33;G06F16/951;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分层形声特征增强的中文词向量表示技术。采用分层形声特征增强的中文词向量表示方法,可以较大地提升中文词向量的效果。本发明包括如下步骤:1)首先运用爬虫工具抓取中文词语的相关形态和发音信息;2)通过对形态和发音信息的分层组合,构成形态特征和声音特征,构建词语的特征表示;3)通过注意力机制对输入部分的形声特征进行权重调节;4)采用解耦预测和混合预测联合的训练方式来训练词向量的表示。和现有技术相比,本发明结合了中文词语多层次的形态和发音信息,并采用解耦预测和混合预测联合的方式,系统地进行词向量的训练,形成独具一格的中文词向量表示技术,创造性地提升了中文词向量的效果。 | ||
搜索关键词: | 一种 引入 分层 形声 特征 文词 向量 表示 学习方法 | ||
【主权项】:
1.一种引入分层形声特征的中文词向量表示学习方法,其特征在于,步骤如下:1)获取中文词语形声特征的语料基础,所述的语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法、仓颉标识、Unicode、规范汉字编号;2)对于给定的中文文本进行预处理,形成训练语料;然后针对训练语料构建模型输入,构建过程如下:2.1)对训练语料从形态和发音两个维度,以及从词语、汉字和子字三个层级构建中文词语分层形声特征;在词级别上,用词语本身和词语拼音代表词语层级上的特征;在字级别上,用汉字的字形和汉字拼音代表汉字层级上的特征;在子字级别上,用汉字部件和汉字拼音的声母和韵母来代表子字层级上的特征;2.2)抽取训练语料中的命名实体;若训练语料中的词语为命名实体,则将其分层形声特征中的汉字层级及子字层级上的特征去除,仅采用词语层级上的特征作为其分层形声特征;2.3)通过注意力机制,计算词语与汉字、子词部分的相似度,从而改变单个汉字、子字特征对于整个词语的贡献;2.4)模型的输入为中心词wt和上下文{wt‑n,...,wt‑1,wt+1...,wt+n},对于中心词采用经过注意力机制后的词语层级、汉字层级和子字层级的特征作为输入,对于上下文仅采用经过注意力机制前的汉字层级和子字层级的特征作为输入;3)采用解耦预测和混合预测结合的方式进行模型训练,得到中文词向量的表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910549589.3/,转载请声明来源钻瓜专利网。