[发明专利]一种基于物联网环境下的快速查询方法在审
申请号: | 201910598970.9 | 申请日: | 2019-07-04 |
公开(公告)号: | CN112182012A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 陈瑞 | 申请(专利权)人: | 北京航天长峰科技工业集团有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/27;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联网 环境 快速 查询 方法 | ||
本发明提供一种基于物联网环境下的快速查询方法,通过搭建海量数据索引云服务,实现索引存储负载的均衡化,然后优化异构数据内容解析算法,运用textrank进行下一步的投票以及迭代的操作来获取文章的特征词,在进行taxtrank提取关键词之前,先对数据集中的文档进行每个词的权重计算,之后将这个词的权重值作为textrank每个词输入,进行下一步的计算,选取比较常用的TFIDF的方法进行每个词的权重的计算,在计文档权重过程中,将TFIDF值进行归一化的处理后,将结果输入textrank中进行权值计算。本发明能实现大数据环境下异构数据高效检索,能够兼容不同数据源,实现各类数据的统一接入。
技术领域
本发明主要应用领域包括物联网、平安城市、智慧交通、智慧城市等多个领域,不局限于特定的应用场景,适用范围广阔。
背景技术
物联网环境下产生海量数据,数据格式不统一,数据接入运算占用带宽比较高,能够在海量数据环境下快速查询结果显得尤为重要,因而对数据整合和数据快速响应提出了更高的要求。如何在海量数据中快速响应用户检索要求,即用户的实时响应,如何在海量数据的范围内,在满足检索效率的同时,提高检索内容的准确性,即用户检索内容的准确性,是物联网环境下亟需解决的问题。传统模式下检索技术实现方式,应用场景比较单一,对数据源环境也提出了较为苛刻要求,数据检索的结果集(或者是索引库)存储模式不够灵活,不利于解决数据持续增长带来的检索膨胀问题。
发明内容
本发明提出一种基于物联网环境下的快速查询方法,旨在解决物联网环境下,海量异构数据检索效率的问题,通过运行机制的创新,调度控制算法的优化,及特征词算法的优化,实现上述目的。
本发明的技术方案如下:
一种基于物联网环境下的快速查询方法,其特征在于包括以下步骤:
(1)搭建海量数据索引云服务,实现索引存储负载的均衡化,详细执行过程如下:
(11)箭头表示搜索请求开始;
(12)表示根据总控制台指令,分别向各个shard分片进行搜索;
(13)表示获取各自检索的记录;
(14)汇集各分片初始结果集;
(15)对初始结果集进行排序,按照预置条件要求,返回符合条件的记录;
(16)通过上一阶段获取的信息,进行字段值选择;
(17)并行执行任务,去各个shard获取字段值信息;
(18)汇总各个shard的字段值信息;
(19)收集各分片的最终结果,合并结果,统一返回。
(2)优化异构数据内容解析算法,使其解析更准确,具体方法如下:
运用textrank进行下一步的投票以及迭代的操作来获取文章的特征词,在进行taxtrank提取关键词之前,先对数据集中的文档进行每个词的权重计算,之后将这个词的权重值作为textrank每个词输入,进行下一步的计算,具体计算方法如下公式:
其中,W(Vi)、W(Vj)表示当前顶点的权重;
在对于总体文档的关键字提取的技术中,选取比较常用的TFIDF的方法进行每个词的权重的计算,但在计文档权重过程中,将TFIDF值进行归一化的处理后,归一化公式如下:
将结果输入textrank中进行权值计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天长峰科技工业集团有限公司,未经北京航天长峰科技工业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910598970.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:接警席多音源话务处理器
- 下一篇:一种警情文本数据分析系统