[发明专利]一种基于知识图谱的词嵌入深度学习方法有效
申请号: | 201710982103.6 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107729497B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 黄震华 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 嵌入 深度 学习方法 | ||
本发明公开一种基于知识图谱的词嵌入深度学习方法。训练样本集构造阶段,首先依据语义强度对知识图谱中的实体关系进行划分,然后基于划分后的各实体关系组来产生不同路径长度的训练样本。词嵌入深度学习阶段,通过构造由word2vec编码器、卷积神经网络、门控循环单元网络、softmax分类器以及逻辑回归器等部件组成的三任务深度神经网络结构,然后以前一阶段所产生的训练样本集为输入来迭代优化深度神经网络结构的参数。训练完成后,保留word2vec编码器和卷积神经网络两个部件构成词嵌套编码器。与现有技术相比,本发明具有词嵌入准确度高、泛化能力强以及简单易实现等优点,能够有效应用于大数据分析、电子商务、智能交通、医疗健康以及智能制造等领域。
技术领域
本发明涉及计算机应用技术领域,尤其是涉及一种词嵌入的机器学习方法。
背景技术
词嵌入(Word embedding)是一项非常重要且应用广泛的技术,可以将文本和词语转换为机器能够接受的一维数值向量,其中向量长度可以根据需要而灵活设定。
在词嵌入技术早期,研究人员提出并使用独热(One-hot)方法将单词转换成一维向量。该向量的长度是词表大小,其中绝大多数元素为0,只有一个分量的值为1,这个分量就代表了当前的词。例如“小明是个童星”,进行分词处理后,被划分为“小明|是|个|童星”。那么在这个句子中总共存在四个词语,因此我们给予“小明”的编码是“0001”,“是”的编码是“0010”,“个”的编码是“0100”以及“童星”的编码是“1000”。很显然,One-hot方法的主要缺点是为了表示每个词,我们需要一个很长的向量,而且任意两个词之间都是孤立的,缺少关联。
为了克服One-hot方法的缺陷,研究人员提出了向量空间模型(VSM:Vector SpaceModel),该模型基于分布式语义理论将近似语义的词语映射到连续向量空间的点进行聚类处理,它在自然语言处理中有着广泛的应用。目前,向量空间模型大致可以分为两类方法:基于统计的方法和基于预测的方法,其中基于统计方法将语料库中出现相邻词语的频率转换为针对于每个词语的一个小的稠密向量,而基于预测的方法从邻近词语进行推理从而将其映射为一个稠密向量。
目前,最常用也是最成功的词嵌入技术是Google公司Tomas Mikolo等人于2013年提出的word2vec方法。该方法是基于具有一个隐含层的神经元网络模型来训练词嵌入过程,模型的输入为词表向量,当输入一个训练样本时,对于样本中的每一个词,我们把这个词在词表中出现位置的取值置为1,否则置为0,同时,模型的输出也是词表向量,对于训练样本标签中的每一个词,我们把这个词在词表中出现位置的取值置为1,否则置为0。我们用该浅层神经网络模型训练并迭代优化所有输入样本,当收敛之后,将从输入层到隐含层的那些权重,作为每一个词表中词的表示向量。
我们发现word2vec方法虽然在一定程度上能够学习出单词的一维向量表示,然而由于它的训练模型只包含一个隐含层的浅层神经元网络模型,因此很难捕获词语的深层特征表示,而且它没有考虑训练数据间的语义信息,从而使得学到的词语向量缺乏语义关联。
发明内容
本发明的目的就是为了解决上述现有方法存在的缺陷而提供一种准确度高、泛化能力强以及简单易实现的词嵌入深度学习方法。
本发明技术方案:
一种基于知识图谱的词嵌入深度学习方法,其特征在于,该方法主要由训练样本集构造和词嵌入深度学习两个阶段组成。
第一阶段(训练样本集构造)主要包含两个步骤,即知识图谱实体关系划分和训练样本集生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710982103.6/2.html,转载请声明来源钻瓜专利网。