[发明专利]一种基于Zolu函数的词嵌入学习模型及训练方法有效
申请号: | 201710421488.9 | 申请日: | 2017-06-07 |
公开(公告)号: | CN107273352B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 卢继华;张右承;栗鸿宇 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F16/36;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于Zolu函数的词嵌入学习模型及训练方法,属于自然语言处理、词嵌入、词相似度计算以及词表达准确度技术领域。包括如下步骤:步骤1)接收及配置各种参数;步骤2)建立基于Zolu函数的激活函数表;步骤3)构建词汇表;步骤4)初始化各词向量;步骤5)构建霍夫曼二叉树,并根据词频给每个词设定在二叉树的位置;步骤6)根据词频建立负采样映射表;步骤7)对步骤3)词向量用基于Zolu函数的不同学习模型进行词嵌入训练;步骤8)判断进行聚类与否操作保存训练结果。本发明所提的学习模型与Mikolov所提的CBOW和SG模型以及与LL‑CBOW和LL‑SG算法相比,在词准确度及相似度方面均有所提高。 | ||
搜索关键词: | 一种 基于 zolu 函数 嵌入 学习 模型 训练 方法 | ||
【主权项】:
一种基于Zolu函数的词嵌入学习模型及训练方法,其特征在于:包括一种基于Zolu函数的词嵌入学习模型及一种基于Zolu函数的词向量训练方法;一种基于Zolu函数的词嵌入学习模型,从功能上又具体包括ZL‑CBOW模型和ZL‑SG模型;还包括HS模式和NS模式;其中,HS指Hierarchical Softmax即分层Softmax,NS指Negative Sampling,即负采样;SS即Sub Sampling是NS可选的功能组成之一,可进一步设定和选择实现SS功能;一种基于Zolu函数的词嵌入学习模型,从组成上包括参数输入模块、初始化模块、激活函数表建立模块、构建词汇表模块、霍夫曼二叉树构建模块、词向量处理模块、词向量训练模块以及聚类处理模块;一种基于Zolu函数的词嵌入学习模型,各模块功能如下:参数输入模块的功能是接收以训练文件名、输出文件名、Batch大小、窗口尺寸、输出的词向量维数、采样阈值、负采样数目、HS选择、CBOW选择以及循环次数为主的输入参数;参数输入模块的功能还包括配置以debug模式、Binary输出选择、学习率、线程数、最小词频、聚类簇个数、建立词典结构体以及哈希表分配为主的参数;其中,输出文件名是存储训练好的词向量的文件;CBOW选择为0时使用ZL‑SG模型,为1时,选择ZL‑CBOW模型;采样阈值是指词频超过多少将被采样;负采样数目的大小控制着负采样映射表的建立;HS选择为1时,选择HS模式,为0时,为NS模式;初始化模块的功能是接收参数输入模块的变量及参数,并且分别针对HS模式和NS模式申请动态数组;激活函数表建立模块的功能是基于Zolu函数建立激活函数表,并且存储到expTable数组中;构建词汇表模块的功能是构建词汇表;霍夫曼二叉树构建模块的功能是构建霍夫曼二叉树;词向量处理模块的功能是在负采样数目大于1时,为每个单词建立能量对应表,即负采样映射表;词向量训练模块的功能是基于Zolu函数展开ZL‑CBOW学习模型的HS或NS;以及ZL‑SG学习模型的HS或NS模式词训练;聚类处理模块的功能是对词向量训练结果基于K‑means算法进行分类;一种基于Zolu函数的词嵌入学习模型,各模块的连接关系如下:参数输入模块与初始化模块相连;初始化模块与激活函数表建立模块相连;构建词汇表模块与霍夫曼二叉树构建模块相连;霍夫曼二叉树构建模块与词向量处理模块相连;词向量处理模块与词向量训练模块相连;激活函数表建立模块与词向量训练模块相连;词向量训练模块与聚类处理模块相连。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710421488.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大数据观点挖掘的产品特征提取方法
- 下一篇:名字解析方法及系统