[发明专利]一种引入分层形声特征的中文词向量表示学习方法有效
申请号: | 201910549589.3 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110427608B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 张寅;毛晨炀;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/216;G06F16/33;G06F16/951;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 引入 分层 形声 特征 文词 向量 表示 学习方法 | ||
本发明公开了一种基于分层形声特征增强的中文词向量表示技术。采用分层形声特征增强的中文词向量表示方法,可以较大地提升中文词向量的效果。本发明包括如下步骤:1)首先运用爬虫工具抓取中文词语的相关形态和发音信息;2)通过对形态和发音信息的分层组合,构成形态特征和声音特征,构建词语的特征表示;3)通过注意力机制对输入部分的形声特征进行权重调节;4)采用解耦预测和混合预测联合的训练方式来训练词向量的表示。和现有技术相比,本发明结合了中文词语多层次的形态和发音信息,并采用解耦预测和混合预测联合的方式,系统地进行词向量的训练,形成独具一格的中文词向量表示技术,创造性地提升了中文词向量的效果。
技术领域
本发明涉及神经网络和深度学习方法在中文词向量上的应用,尤其涉及神经网络中选取中文词语特征信息、中文词向量训练的技术方法。
背景技术
词向量表示,又叫做词语的表示学习,是指将自然语言中的词语表示映射到向量空间中实数向量的过程,使得词语能够被计算机识别和使用。词向量表示是自然语言处理中非常重要的基础工作,词语作为文本数据中基础的语义单元,是短语、句子、段落和文档等更高级别文本表示的基石,因而许多自然语言处理的高层应用都依赖于词向量表示。词向量表示被应用在大量的自然语言处理任务中,并能够直接提升任务的最终效果,例如命名实体识别、语义检索、文本分类、机器翻译、标题生成、问答系统等。
发明内容
本发明的目的解决现有技术中存在的问题,并提供一种引入分层形声特征的中文词向量表示学习方法。
本发明具体采用的技术方案如下:
一种引入分层形声特征的中文词向量表示学习方法,其步骤如下:
1)获取中文词语形声特征的语料基础,所述的语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法、仓颉标识、Unicode、规范汉字编号;
2)对于给定的中文文本进行预处理,形成训练语料;然后针对训练语料构建模型输入,构建过程如下:
2.1)对训练语料从形态和发音两个维度,以及从词语、汉字和子字三个层级构建中文词语分层形声特征;在词级别上,用词语本身和词语拼音代表词语层级上的特征;在字级别上,用汉字的字形和汉字拼音代表汉字层级上的特征;在子字级别上,用汉字部件和汉字拼音的声母和韵母来代表子字层级上的特征;
2.2)抽取训练语料中的命名实体;若训练语料中的词语为命名实体,则将其分层形声特征中的汉字层级及子字层级上的特征去除,仅采用词语层级上的特征作为其分层形声特征;
2.3)通过注意力机制,计算词语与汉字、子词部分的相似度,从而改变单个汉字、子字特征对于整个词语的贡献;
2.4)模型的输入为中心词wt和上下文{wt-n,...wt-1,wt+1...,wt+n},对于中心词采用经过注意力机制后的词语层级、汉字层级和子字层级的特征作为输入,对于上下文仅采用经过注意力机制前的汉字层级和子字层级的特征作为输入;
3)采用解耦预测和混合预测结合的方式进行模型训练,得到中文词向量的表示。
基于上述技术方案,各步骤可采用如下具体方式实现。
优选的,所述的步骤1)中,所述中文词语形声特征的语料基础采用Scrapy的爬虫框架在汉语词典和新华字典上爬取获得。
优选的,所述的步骤2)中,所述的预处理包括剔除非中文信息、中文繁体转化为简体、分词以及去除停用词。
优选的,所述的步骤2.1)中,构建中文词语分层形声特征的具体方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910549589.3/2.html,转载请声明来源钻瓜专利网。