[发明专利]一种基于字符对编码的词向量存储空间压缩的方法在审
申请号: | 201910113020.2 | 申请日: | 2019-02-13 |
公开(公告)号: | CN109815456A | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 李建欣;包梦蛟;谢一凡;彭浩;胡春明 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 子词 词语 语料 存储空间 向量集 基词 预处理 线性组合结果 线性组合 压缩 | ||
本发明提出一种基于字符对编码的词向量存储空间压缩的方法,具体方式为:步骤1,选取预处理完毕的语料,获得所述语料中每个词语的子词构成,在所述语料中的词语后插入它相对应的子词表示,构成一个新语料集;步骤2,使用所述新语料集训练出每个词语词向量集{Wi}与子词的词向量集{Si};步骤3,使用所述子词的词向量集S作为基词向量集,为每一个原词语训练出基于所述基词向量集的线性组合,使用该线性组合结果作为原词向量的表达。
技术领域
本发明涉及一种自然语言处理中的词向量压缩方法,主要涉及一种基于字符对编码的词向量存储空间压缩的方法。
背景技术
词向量是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。在语言学中,在分布语义学的研究领域中讨论了词嵌入。它旨在基于语言数据的大样本中的分布属性来量化和分类语言项之间的语义相似性。词向量最基本的性质就是,如果两个词语较为语义相近,那么他们在向量空间中的距离也较为相近。
很多场景需要对词向量进行压缩,诸如手机收入法中的语言模型,需要预训练的词向量进行初始化,在移动存储设备中,词向量的存储空间不能太大,太大的存储空间意味着更多的外磁盘,内存等存储资源消耗。
现有技术压缩词向量存储空间的算法,在语料集出现的词语中,选取词频极高的词语以及它们的词向量构成基词向量集,再使用算法为剩余的低频词语训练出稀疏向量表示集。这样通过矩阵乘法操作作为转换的稀疏矩阵,这样使用向量表示集与基词向量集,即可复原出原本的词向量集,但是高频词语构成的基词向量集加上低频词语的稀疏向量表示集的存储大小,远小于原本的词向量集,达到压缩词向量存储空间的目的。现有技术另一种常用方法是训练自编码器,使用自编码器达到矩阵降维的作用。
现有技术存在的问题:1.算法训练速度慢,现有的词向量压缩算法得到的压缩后的词向量集,由高频词语构成的基词向量集加上低频词语的稀疏向量表示集两部分组成。对于低频词语的稀疏向量表示,是使用基词向量集中所有词向量W的线性组合Wx来获得一个最接近原低频词词向量xe的结果,Xe=Wx,这个线性组合x就是该低频词的向量表示。但向量x的维度等于基词向量集的数量模||W||,因此从极高维的解空间中训练出一个最佳的基向量线性组合会花费大量的时间。2.使用压缩算法得到的词向量无法应对没有在语料中出现的罕见词,压缩后的词向量中只包含了有限个词语的词向量,一些没有出现在中的词向量表中的词语,就无法获得对应的词向量。
深度学习及神经网络技术为我们的生活带来的许多变化。然而一个神经网络的运行依赖一定规模的训练参数,这些参数会占用大量的存储空间,这对将神经网络移植到移动端带来挑战,因此压缩网络存储空间就显得尤为重要。
对于自然语言处理相关的神经网络,绝大多数存储空间都被词向量所占用,现阶段也有了一些压缩词向量存储空间的算法,但他们有一些不可忽视的问题。一是使用小规模词向量的线性组合,来表示余下大量的低频词词向量,这种线性组合训练任务解空间复杂,难以找到最优解,这种复杂性也让压缩算法得到的词向量与原词向量有一定的差距;二是词向量的规模有限,囊括所有词语的词向量不现实,对于一些罕见词就无法获取它对应的词向量。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910113020.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:项目文件处理方法和装置
- 下一篇:印刷方法及印刷品信息展示方法