[发明专利]基于演化树的哈希学习方法及其无监督的在线哈希学习方法在审
申请号: | 201910088472.X | 申请日: | 2019-01-30 |
公开(公告)号: | CN109829549A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 寿震宇;钱江波;杨安邦;袁明汶 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 宁波诚源专利事务所有限公司 33102 | 代理人: | 徐雪波;邓青玲 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于演化树的哈希学习方法,通过数据集中的数据点对演化树进行训练,得到训练完成的演化树,对训练完成的演化树中除根节点外的所有节点进行初始化的海明码编码,使用贪心的路径编码策略对整棵演化树的保相似性损失函数进行优化,将保相似性损失函数最小值所对应的海明码编码作为演化树的每个叶子节点的哈希编码;计算某一数据点在演化树中的最佳匹配点,找到从根节点分裂出该数据点的最佳匹配点所对应的叶子节点的分裂路径,将该数据点的最佳匹配点分裂路径中对应的叶子节点的哈希编码进行有序组合,将其作为该数据点的哈希编码。还公开了一种无监督的在线哈希学习方法。该哈希方法能降低编码复杂度,具有较好的查询性能。 | ||
搜索关键词: | 哈希 数据点 最佳匹配点 叶子节点 海明码编码 损失函数 无监督 分裂 学习 编码复杂度 查询性能 路径编码 数据集中 初始化 根节点 除根 优化 | ||
【主权项】:
1.一种基于演化树的哈希学习方法,用于通过数据集X中的数据点xi对演化树进行训练,得到训练完成的演化树,对训练完成的演化树进行保相似性编码,得到演化树中每个叶子节点的哈希编码,并计算任一数据点在演化树上的最佳匹配点,得到该数据点的哈希编码,其特征在于:包括以下步骤:步骤1、创建一个演化树,其中,初始化的演化树只有一个根节点,对该根节点赋予权值向量;步骤2、对根节点进行训练:将数据集中的所有数据点随机组成数据流,将该根节点作为该数据流中的第一个数据点的最佳匹配点,并记录根节点成为最佳匹配点的次数,转入步骤4;步骤3、使用数据流中的第一个数据点对分裂完成的演化树的叶子节点进行训练:分别计算演化树中每个节点与该数据点之间的欧式距离,找到与该数据点对应的欧式距离最小的节点,判断该节点是否为叶子节点,如是,则将演化树中当前训练节点作为该数据点的最佳匹配点,记录演化树中的所有叶子节点成为最佳匹配点的次数,并转入步骤4;如否,转入步骤6;步骤4、对演化树中的根节点和所有叶子节点分别依次执行如下操作:判断演化树中当前训练节点成为最佳匹配点的次数是否小于第一预设值,其中演化树中当前训练节点为根节点或任一叶子节点,如是,则更新演化树中当前训练节点的权值向量,并转入步骤6;如否,则转入步骤5;其中,演化树中当前训练节点的权值向量更新公式为:wi(t+1)=x(t)其中,wi(t+1)为演化树中当前训练节点更新后的权值向量,wi(t)为演化树中当前训练节点更新前的权值向量,x(t)为与演化树中当前训练节点配对的最佳匹配点的权值向量;步骤5、判断演化树中当前训练节点的当前深度是否小于演化树的最大深度,演化树的最大深度为预设值,如是,则对演化树中的当前训练节点进行分裂,将演化树中的当前训练节点分裂成n个叶子节点,并对每个叶子节点赋予不同的权值向量,该分裂的节点记为躯干节点,重新组成数据流,并将此时组成数据流的次数重新计数,转入步骤3;如否,则此时的演化树为训练完成的演化树,并转入步骤8;其中,n个叶子节点的权值向量的计算公式为:w′(t)=(1‑β)w(t)+βr(t)其中,w′(t)为新叶子节点的权值向量,w(t)为新叶子节点对应的躯干节点的权值向量,r(t)为与w(t)相同维度的随机单位向量,β为预设的超参数,用于控制随机扰动程度;步骤6、判断该数据流中的数据点是否全部训练完,如否,使用数据流中的下一个数据点对演化树进行训练,继续记录演化树中所有节点成为最佳匹配点的次数,并转入步骤4;如是,转入步骤7;步骤7、判断组成数据流的次数是否小于第二预设值,如是,则重新组成数据流,重新对演化树进行训练,并对演化树中的训练节点成为最佳匹配点的次数进行累计,并转入步骤4;如否,则此时的演化树为训练完成的演化树,并转入步骤8;步骤8、对训练完成的演化树中除根节点外的所有节点进行初始化的海明码编码,使用贪心的路径编码策略对整棵演化树的保相似性损失函数进行优化,将保相似性损失函数最小值所对应的海明码编码作为演化树的每个叶子节点的哈希编码;其中,优化目标为:其中,E为整棵演化树的保相似性损失值,Wk为整棵演化树的躯干节点k的权值向量,其中,Wk={w1,w2,...,wn},w1,w2,...,wn分别为躯干节点k分裂出的n个叶子节点的权值向量;N={W1,W2,...,Wc}为整棵演化树中所有躯干节点的集合;F(Wk)为每个躯干节点对应的叶子节点编码的保相似性损失函数,其中,wi为躯干节点k中的第i个叶子节点的权值向量,wj为躯干节点k中的第j个叶子节点的权值向量;d(wi,wj)表示叶子节点wi与叶子节点wj之间的欧式距离,λ为预设超参数,b(wi)表示叶子节点wi的海明码,b(wj)表示叶子节点wj的海明码,dh(b(wi),b(wj))表示b(wi)与b(wj)之间的海明距离;步骤9、计算某一数据点在演化树中的最佳匹配点,找到从根节点分裂出该数据点的最佳匹配点所对应的叶子节点的分裂路径,并根据步骤8中得到的演化树中每个叶子节点的哈希编码,将该数据点的最佳匹配点分裂路径中对应的叶子节点的哈希编码进行有序组合,将其作为该数据点的哈希编码,该数据点的哈希编码表达式为:y=u1u2...udep‑1,其中,u1为该数据点在演化树深度为2的对应节点上的哈希编码;u2为该数据点在演化树深度为3的对应节点上的哈希编码,dep为演化树的最大深度;udep‑1为该数据点在演化树最大深度的对应节点上的哈希编码。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910088472.X/,转载请声明来源钻瓜专利网。