[发明专利]一种数据操作方法、装置及系统在审
申请号: | 201910862672.6 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110737747A | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 何庆安;李晶晶 | 申请(专利权)人: | 苏宁云计算有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 11111 北京市万慧达律师事务所 | 代理人: | 顾友 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 磁盘 数据操作请求 操作指令 目标数据 查询词 读取 装置及系统 磁盘索引 更新频率 关系建立 接收请求 目标文档 内存索引 全量数据 索引数据 文档标识 数据处理 更新 索引 申请 发送 查询 | ||
本申请实施例公开了一种数据处理方法、装置及系统。其中方法包括接收请求方发送的数据操作请求;数据操作请求中包括查询词和操作指令;根据查询词在内存索引数据中进行查询,确定包含有目标文档标识的第一目标数据;内存索引数据基于磁盘索引数据中的文档标识与部分关键词的对应关系建立;根据操作指令对第一目标数据执行相应的操作。本申请的技术方案使得对于更新频率高的关键词可以单独在内存索引中进行更新和后续读取,无需频繁对磁盘进行操作,且无需在磁盘内进行全量数据的更新,提高了效率并避免了对磁盘的过度使用。
技术领域
本申请涉及数据操作领域,特别是涉及一种数据操作方法、装置及系统。
背景技术
为解决大数据状态下的数据搜索问题,现在都是用搜索引擎建立索引来进行数据搜索,这在很大程度上提高了数据查询效率。
索引的方式通常有正排索引和倒排索引。这两种方式都以关键字进行查询。
其中正排索引以文档ID为key,每个文档ID对应有其包含的关键字出现的次数和位置。若要查询某个关键字,则需要扫描每个文档中关键字的信息,直到找到所有包含查询要查询的关键字的文档。
其中倒排索引是以关键字为key,对应有包含该关键字的所有文档ID。在查询时,只要查询到关键字,即可直接一次获取所有包含该关键字的文档ID。
目前的索引数据存放在磁盘中,当需要进行读取或更新等操作时,以关键字为基础,向磁盘进行查询和相应操作。
以电商平台为例,其业务数据量大,一部分数据如价格、库存等数据的变化频率高。而且实际应用中经常需要对这类数据进行读取如读取价格、库存数据进行排序等。这些都要求搜索引擎中的数据具有很好的时效性才能保证最终结果的正确。
但目前的方式时效性较低:
一些字段的数据变化频率高,比如价格、库存等频繁变化导致增量更新效率低,同时占用索引空间大。
一些字段的更新需要通过重建商品全量索引来实现,比如优惠券规则,一次优惠券规则变化可能会更新上百万甚至千万规模的商品,通过重建商品全量索引来生效该规则的时效性比较差,通常需要几个小时才能生效。
因此,如何保证时效性是目前需要解决的问题。
发明内容
本申请提供了一种数据操作方法,所述方法包括:
接收请求方发送的数据操作请求;所述数据操作请求中包括查询词和操作指令;
根据所述查询词在内存索引数据中进行查询,确定包含有目标文档标识的第一目标数据;所述内存索引数据基于磁盘索引数据中的文档标识与部分关键词的对应关系建立;
根据所述操作指令对所述第一目标数据执行相应的操作。
优选的,所述数据操作请求为数据获取请求;
所述方法还包括:
根据所述目标文档标识在所述磁盘索引数据中进行查询获得第二目标数据;
所述根据所述操作指令对所述第一目标数据执行相应的操作包括:
根据所述第一目标数据替换所述第二目标数据中的对应部分,生成最终目标数据并返回至数据请求方。
优选的,所述内存索引包括由二维数组构成的内存正排索引数据;所述数组的第一维为与第一类关键词对应的所述文档标识,第二维为与所述第一类关键词对应的第二类关键词。
优选的,所述数据操作请求为数据更新请求;
所述根据所述查询词在内存索引数据中进行查询,确定第一目标数据包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910862672.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种线上运动比赛排名方法及系统
- 下一篇:一种文本去重方法及系统