[发明专利]一种基于Zolu函数的词嵌入学习模型及训练方法有效

专利信息
申请号: 201710421488.9 申请日: 2017-06-07
公开(公告)号: CN107273352B 公开(公告)日: 2020-07-14
发明(设计)人: 卢继华;张右承;栗鸿宇 申请(专利权)人: 北京理工大学
主分类号: G06F40/242 分类号: G06F40/242;G06F16/36;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于Zolu函数的词嵌入学习模型及训练方法,属于自然语言处理、词嵌入、词相似度计算以及词表达准确度技术领域。包括如下步骤:步骤1)接收及配置各种参数;步骤2)建立基于Zolu函数的激活函数表;步骤3)构建词汇表;步骤4)初始化各词向量;步骤5)构建霍夫曼二叉树,并根据词频给每个词设定在二叉树的位置;步骤6)根据词频建立负采样映射表;步骤7)对步骤3)词向量用基于Zolu函数的不同学习模型进行词嵌入训练;步骤8)判断进行聚类与否操作保存训练结果。本发明所提的学习模型与Mikolov所提的CBOW和SG模型以及与LL‑CBOW和LL‑SG算法相比,在词准确度及相似度方面均有所提高。
搜索关键词: 一种 基于 zolu 函数 嵌入 学习 模型 训练 方法
【主权项】:
一种基于Zolu函数的词嵌入学习模型及训练方法,其特征在于:包括一种基于Zolu函数的词嵌入学习模型及一种基于Zolu函数的词向量训练方法;一种基于Zolu函数的词嵌入学习模型,从功能上又具体包括ZL‑CBOW模型和ZL‑SG模型;还包括HS模式和NS模式;其中,HS指Hierarchical Softmax即分层Softmax,NS指Negative Sampling,即负采样;SS即Sub Sampling是NS可选的功能组成之一,可进一步设定和选择实现SS功能;一种基于Zolu函数的词嵌入学习模型,从组成上包括参数输入模块、初始化模块、激活函数表建立模块、构建词汇表模块、霍夫曼二叉树构建模块、词向量处理模块、词向量训练模块以及聚类处理模块;一种基于Zolu函数的词嵌入学习模型,各模块功能如下:参数输入模块的功能是接收以训练文件名、输出文件名、Batch大小、窗口尺寸、输出的词向量维数、采样阈值、负采样数目、HS选择、CBOW选择以及循环次数为主的输入参数;参数输入模块的功能还包括配置以debug模式、Binary输出选择、学习率、线程数、最小词频、聚类簇个数、建立词典结构体以及哈希表分配为主的参数;其中,输出文件名是存储训练好的词向量的文件;CBOW选择为0时使用ZL‑SG模型,为1时,选择ZL‑CBOW模型;采样阈值是指词频超过多少将被采样;负采样数目的大小控制着负采样映射表的建立;HS选择为1时,选择HS模式,为0时,为NS模式;初始化模块的功能是接收参数输入模块的变量及参数,并且分别针对HS模式和NS模式申请动态数组;激活函数表建立模块的功能是基于Zolu函数建立激活函数表,并且存储到expTable数组中;构建词汇表模块的功能是构建词汇表;霍夫曼二叉树构建模块的功能是构建霍夫曼二叉树;词向量处理模块的功能是在负采样数目大于1时,为每个单词建立能量对应表,即负采样映射表;词向量训练模块的功能是基于Zolu函数展开ZL‑CBOW学习模型的HS或NS;以及ZL‑SG学习模型的HS或NS模式词训练;聚类处理模块的功能是对词向量训练结果基于K‑means算法进行分类;一种基于Zolu函数的词嵌入学习模型,各模块的连接关系如下:参数输入模块与初始化模块相连;初始化模块与激活函数表建立模块相连;构建词汇表模块与霍夫曼二叉树构建模块相连;霍夫曼二叉树构建模块与词向量处理模块相连;词向量处理模块与词向量训练模块相连;激活函数表建立模块与词向量训练模块相连;词向量训练模块与聚类处理模块相连。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710421488.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top