[发明专利]一种卷积自编码器及基于该编码器的词嵌入向量压缩方法有效
申请号: | 202010036928.0 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111507100B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 刘星辰;陈晓峰;麻沁甜 | 申请(专利权)人: | 上海勃池信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/0464;G06N3/0455;G06N3/08;G06F16/33;G06F16/35;G06F40/58 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 201815 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 卷积 编码器 基于 嵌入 向量 压缩 方法 | ||
1.一种基于卷积自编码器的词嵌入向量压缩方法,其特征在于,包括以下步骤:
步骤1,获取待处理文本的分词序列,并进行预处理;
步骤2,通过查询预设的词嵌入向量计算模型,在步骤1的分词序列中获取每个分词对应的映射词嵌入向量;词嵌入向量计算模型为一个以上的词嵌入向量计算模型的组合,对步骤1中得到有用的分词序列,与一个以上的词嵌入向量计算模型对应,得到多个映射词嵌入向量;
步骤3,对步骤2中每一个分词的映射词嵌入向量进行拼接处理,形成拼接嵌入向量;拼接处理是对同一个词的多个映射词嵌入向量用首尾相连的方式拼接得到单个拼接嵌入向量,拼接嵌入向量的维度为多个映射词嵌入向量的维度之和;对于每个分词来说,不同类别的映射词嵌入向量的拼接顺序要保持一致;
步骤4,将步骤3中的拼接嵌入向量输入卷积自编码器,以中间层特征图作为输出;
步骤5,对步骤4中输出的中间层特征图进行全局最大池化处理,得到最终压缩后的词嵌入向量。
2.根据权利要求1所述的基于卷积自编码器的词嵌入向量压缩方法,其特征在于,步骤1中的预处理为对分词序列中特殊符号和停止词进行过滤。
3.根据权利要求1所述的基于卷积自编码器的词嵌入向量压缩方法,其特征在于,步骤2中词嵌入向量计算模型包括word2vec、fastText、GloVe中的组合。
4.根据权利要求1所述的基于卷积自编码器的词嵌入向量压缩方法,其特征在于,步骤5中全局最大池化处理是指,将卷积自编码器输出的中间层特征图中的每一个特征图池化为单一输出,根据公式(1)进行最大池化处理:
其中j表示池化核的移动步,为l层第i个特征图中第t个单元的值,W表示池化核的宽度,对于全局最大池化,Q等于特征图的宽度,为池化处理的输出。
5.一种卷积自编码器,用于实现权利要求1至4中任意一项所述的基于卷积自编码器的词嵌入向量压缩方法,其特征在于,包括:
编码层,用于将输入卷积自编码器的拼接嵌入向量进行卷积编码,并输出为中间层特征图;
解码层,用于将编码层输出的中间层特征图反卷积重构,并输出重构后的重构拼接嵌入向量。
6.根据权利要求5所述的卷积自编码器,其特征在于,编码层对输入的拼接嵌入向量进行卷积,根据公式(2)进行卷积处理;
和分别表示l层第i个卷积核的权重和偏置,xl(j)表示l层第j个卷积区域,*表示按元素相乘,为卷积处理的输出。
7.根据权利要求6所述的卷积自编码器,其特征在于,卷积自编码器对编码层输出的中间层特征图进行零填充,再对填充后的中间层特征图进行反卷积处理,反卷积处理的公式与卷积处理的公式相同。
8.根据权利要求5所述的卷积自编码器,其特征在于,对卷积自编码器进行无监督训练,无监督训练中训练模型的损失可以通过公式(3)来计算:
X和分别表示卷积自编码器的输入和重构输出,g和f分别表解码层和编码层函数,M表示为输入编码层的向量个数,L(θ)为卷积自编码器训练模型的损失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海勃池信息技术有限公司,未经上海勃池信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010036928.0/1.html,转载请声明来源钻瓜专利网。