[发明专利]一种对海量数据进行快速匹配的算法在审
申请号: | 202111461294.4 | 申请日: | 2021-12-02 |
公开(公告)号: | CN114116804A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 胡永伟 | 申请(专利权)人: | 江苏省舜禹信息技术有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/242;G06F16/2458;G06F16/28 |
代理公司: | 南京专信知识产权代理有限公司 32605 | 代理人: | 郝晓燕 |
地址: | 210019 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据 进行 快速 匹配 算法 | ||
1.一种对海量数据进行快速匹配的算法,其特征在于,包括以下步骤:
S1、HubbleDotNet将全文搜索和关系数据库整合到一起,通过SQL语句对数据库中的数据进行全文和关系查询;
S2、在TF-IDF算法的基础上增加了位置函数fp(t,d,q):
S3、通过HubbleDotNet得到精确的数据后,系统采用编辑距离算法的的基础上,结合自身特定的递归算法,对数据进行匹配运算。
2.根据权利要求1所述的一种对海量数据进行快速匹配的算法,其特征在于,HubbleDotNet组件本身负责对全文数据进行倒排索引,并将索引存储到表所指定的目录下,数据的存储则由和Hubble.net关联的关系数据库完成。
3.根据权利要求1所述的一种对海量数据进行快速匹配的算法,其特征在于,HubbleDotNet的基础得分算法公式如下:
FieldRank为字段权值;
Rank(t,q)为单词分量(term)的在查询字符串中的权值;
Rank(t,d)为单词分量(term)所在文档的权值,默认为1,如果要指定文档权值,需要在表中增加一个rank int untokenized字段;
TF(t,d):为单文本词汇频率,要查询的单词分量(term)在文档中的出现的次数除以文档所有单词分量出现的次数;
IDF(t)为逆文本频率指数。
4.根据权利要求1所述的一种对海量数据进行快速匹配的算法,其特征在于,步骤三中匹配运算的运算规则为:
(1)找出两个字符串中相同部分最长的一段;
(2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段,以此类推,直到没有任何相同部分;
(3)相似度=相同部分的长度/两个字符串中最长字符串的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省舜禹信息技术有限公司,未经江苏省舜禹信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111461294.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于边缘计算及视觉分析的港口流动加油监控系统
- 下一篇:注油漏斗
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置