[发明专利]一种面向多负载的云数据库二级索引自动推荐方法和系统有效
申请号: | 202110579171.4 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113360497B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 李春花;周可;孙潇;方浩天;狄时禹;朱建平 | 申请(专利权)人: | 华中科技大学;腾讯科技(深圳)有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/9535;G06K9/62;G06N3/04 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 宋业斌 |
地址: | 430070 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 负载 数据库 二级 索引 自动 推荐 方法 系统 | ||
1.一种面向多负载的云数据库二级索引自动推荐方法,其特征在于,包括以下步骤:
(1)从数据库中的查询语句集合中随机选择多个查询语句组成查询语句样本集{q1,q2,...,qR},对样本集进行向量化处理,以得到查询语句向量组{x1,x2,...,xR},其中qi表示第i个查询语句,i∈[1,R],R表示样本集中的查询语句总数,xi表示qi向量化后的结果;
(2)使用k-means算法对步骤(1)得到的向量组进行聚类分析,以得到k个2*N维向量作为k个查询模板、以及k个查询模板中每一个查询模板的权重,并用这k个查询模板表示整个查询语句集合的特征;
(3)将步骤(2)中得到的k个查询模板、以及每个查询模板的权重输入到预先训练好的多负载索引推荐模型中,以得到索引配置;多负载索引推荐模型包括第一全连接神经网络、第二全连接神经网络和第三全连接神经网络;
第三全连接神经网络是通过以下步骤训练得到的:
A1、使用Python产生多个随机的查询语句及其对应的索引,随机产生查询语句对应的查询条件中所包含的属性和属性的选择度,将产生的每个查询语句输入其对应索引的数据库中,以得到每个查询语句在其对应索引下的查询时间,对每个查询语句及其对应索引分别进行向量化处理,以得到两个向量,将这两个向量拼接成一个向量,该拼接后的向量作为该查询语句对应的样本的输入,查询时间作为该查询语句对应的样本的输出,所有查询语句对应的样本的输入和所有查询语句对应的样本的输出构成数据集,将数据集按照9∶1的比例分为训练集和测试集;
A2、根据方差损失函数、并利用步骤A1得到的训练集对第三全连接神经网络进行迭代训练,直到其收敛为止,从而得到初步训练好的第三全连接神经网络;
A3、使用步骤A1得到的测试集对步骤A2初步训练好的第三全连接神经网络进行验证,以得到训练好的第三全连接神经网络。
2.根据权利要求1所述的面向多负载的云数据库二级索引自动推荐方法,其特征在于,
步骤(1)中向量化处理的过程,是针对每一个查询语句qi而言,使用该查询语句的选择度、以及该查询语句是否包含属性来对该查询语句qi进行向量化,qi向量化后的结果xi是一个2*N维的向量,且有:
xi=(ai,1,...,ai,N,ci,1,...,ci,N)
其中N为样本集中所有查询语句包含的属性的个数,ai,j表示查询语句qi对应的查询条件中是否包含属性fj,如果包含则ai,j=1,此时ci,j为查询语句qi在属性fj上的选择度,即查询条件中该属性fj可返回的结果数在数据库中所占的比例;如果不包含则ai,j=0,此时ci,j=1,j∈[1,N]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学;腾讯科技(深圳)有限公司,未经华中科技大学;腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110579171.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种精密磨床
- 下一篇:集成电路及其形成方法