[发明专利]一种分布式域名存储方法及系统有效
申请号: | 202011250147.8 | 申请日: | 2020-11-10 |
公开(公告)号: | CN112422712B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 李晓东;王伟;彭博韬;张宁;杨国强 | 申请(专利权)人: | 山东伏羲智库互联网研究院;伏羲科技(菏泽)有限公司 |
主分类号: | H04L61/4511 | 分类号: | H04L61/4511;H04L67/1097;G06N3/08;G06F18/241;G06F18/23 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 聂俊伟 |
地址: | 100192 北京市海淀区永*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 域名 存储 方法 系统 | ||
1.一种分布式域名存储方法,其特征在于,包括:
提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;
对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;
根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点;
其中,所述提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量,具体包括:
提取域名中所包含的所述域名文本数据;
以点作为分割词,对所述域名文本数据进行分割处理,获取多个目标域名文本数据;
将每个所述目标域名文本数据输入至预先构建的Bert词嵌入算法模型,获取由所述Bert词嵌入算法模型输出的目标域名特征向量;
每个所述目标域名特征向量与每个所述目标域名文本数据对应;
在对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码之前,对每个所述域名特征向量进行降维处理,具体包括:
基于算数平均值,将所有的目标域名特征向量均分为多个目标域名特征向量集;
分别计算每个所述目标域名特征向量集中所有的目标域名特征向量的向量平均值,作为所述目标域名特征向量集的表征向量,完成对所述域名特征向量的降维处理;
所述对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码,包括:
根据将浮点数空间按照遵循正态分布划分的形成的等概率区间,对所述域名特征向量进行离散符号化表示,获取与所述域名特征向量对应的iSAX编码;
所述根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域,包括:
根据所有域名文本数据对应的所述iSAX编码所对应的域名数量,对所述iSAX向量空间进行裂变操作,获取多个子区域;
确定每个所述子区域对应的分布存储节点,以将所述iSAX编码存储于所述分布存储节点。
2.根据权利要求1所述的分布式域名存储方法,其特征在于,所述iSAX编码是由多个SAX码元以及表示每个码元基数的数值构成。
3.根据权利要求1所述的分布式域名存储方法,其特征在于,所述根据所有域名文本数据对应的所述iSAX编码所对应的域名数量,对所述iSAX向量空间进行裂变操作,包括:
若任一目标iSAX编码所对应的域名数量所述域名数大于第一预设阈值,则对所述目标iSAX编码对应的iSAX向量空间进行裂变操作;
或者,若任一目标iSAX编码所对应的域名数量与其他的iSAX编码所对应的域名数量之间的差值大于第二预设阈值,则对所述目标iSAX编码对应的iSAX向量空间进行裂变操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东伏羲智库互联网研究院;伏羲科技(菏泽)有限公司,未经山东伏羲智库互联网研究院;伏羲科技(菏泽)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011250147.8/1.html,转载请声明来源钻瓜专利网。