[发明专利]一种基于不定长上下文的词向量生成方法有效
申请号: | 201710609471.6 | 申请日: | 2017-07-25 |
公开(公告)号: | CN107608953B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 王俊丽;王小敏;杨亚星 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/08 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 不定 长上 下文 向量 生成 方法 | ||
1.一种基于不定长上下文的词向量生成方法,其特征在于,
首先在对语料库进行预处理后,使用标点符号划分上下文,把语料库划分为长度不等,语义完整的上下文单元;
然后利用卷积神经网络学习上下文中各词的权重,这权重随后和语料库的全局分布结合生成上下文中各词的最终权重;
随后利用这最终权重和词向量计算上下文的向量表达;
随后利用上下文的向量表达构建和上下文中每个词之间的一对多映射关系;
随后通过随机梯度算法训练模型,并最终获得词向量;
具体包括如下步骤:
(1)文档预处理,获取训练语料库;
给定关于某专业领域的一组文档集合,通过词去掉停用词和低频词预处理技术,获取语料库中有用信息,进而构成训练语料库;
(2)词频统计,统计语料分布;
基于文档中词语出现频率的统计,生成语料库的字典,字典中包含语料库中的词、词的索引和词的频率;
(3)构建训练集;
根据训练语料库中的标点符号,把语料库划分成长度不等的上下文,形成训练集;
(4)计算上下文中词向量的权重;
上下文中各词的词向量构成上下文矩阵;利用卷积神经网络通过对上下文矩阵的卷积运算获取各词的权重,这权重再和语料库中词的频率结合形成最终的权重;
(5)计算上下文的分布式表达;
结合步骤(4)中得到的词向量的权重,获得当前上下文的分布式表达;再利用循环神经网络中的历史上下文信息,生成最新的上下文的分布式表达,同时更新循环神经网络中的历史信息;
(6)模型推断;
利用步骤(5)中获得的上下文分布信息,构建上下文和上下文中的词的一对多映射关系;构建模型的损失函数;
(7)训练模型,获得词向量;
根据步骤(6)中构建的映射关系在训练集上进行最优化训练,训练方法采用负采样和随机梯度下降算法;
在上述方法中,所述步骤(3)中使用了标点符号,这里所使用的标点符号是指包含比较完整分割语义的标点。
2.如权利要求1所述的一种基于不定长上下文的词向量生成方法,其特征在于,所述步骤(4)使用了卷积神经网络,卷积核的大小为[1,3,m,1],其中m表示词向量的维度大小;利用卷积神经网络把形状为[k,m]的上下文矩阵通过卷积生成形状为[k,1]权重,其中k表示上下文中词的个数;这权重再结合语料库的分布计算出最终的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710609471.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种病历编辑器及其实现方法
- 下一篇:一种单词信息的显示方法及移动终端