[发明专利]存储数据的方法和设备在审
申请号: | 201510083879.5 | 申请日: | 2015-02-13 |
公开(公告)号: | CN104573133A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 王杰雄;杨扬;富卫军;陈一宁 | 申请(专利权)人: | 广州神马移动信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 屠长存 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储 数据 方法 设备 | ||
技术领域
本发明涉及互联网领域,特别涉及存储数据的方法和设备。
背景技术
目前,在网络搜索查询时,用户的查询词中会包含大量的精确意图,这些精确意图是无法通过网页粒度得到满足,是需要在查询时直接返回答案的。例如:查询“刘德华的身高”,期望返回“174CM”;查询“身高超过180cm的明星”,期望返回结果如“古巨基,郑少秋”等身高在规定范围的明星列表;输入“唐宋八大家”,期望返回“柳宗元”等人。
然而,传统的搜索产品是通过比对用户的查询词和收录网页的文本匹配程度返回网页链接作为查询结果,通过相关性算法保证返回的结果符合用户的查询意图。但是,用户需要连接到所找到的网页,进行阅读,才能得到所需要的答案。
目前,一些搜索公司开始采用知识库系统对知识进行结构化描述,建立实体间关系,但是现有知识库系统通常使用节点-边-节点三元组的简单数据结构来表示实体属性和实体关系,这样会产生存在许多相同实体的冗余节点。
另一方面,使用三元组的知识库由于表示过于松散,也存在查询时需要对返回结果进行大量的过滤及数据组合拼接操作的问题,不便于后期的查询操作。
因此,需要一种节省存储空间,又便于查询的数据存储的方法和设备。
发明内容
本发明所要解决的一个技术问题是提供了一种节省存储空间,又便于查询的数据存储的方法和设备。
根据本发明的一个方面,提供了一种存储数据的方法,包括:
从网页中获取与实体相关的实体相关数据,实体相关数据包括表示实体的实体数据、描述实体的属性的实体属性数据、以及描述两个实体之间的关系的实体间关系数据;
将实体数据和与其对应的实体属性数据关联地存储在实体数据库中;以及
将实体间关系数据存储在关系数据库中。
由此,将实体数据及其属性数据集中存储在实体数据库,而将实体间关系数据区分存储到关系数据库;这种数据存储方法避免了数据存储冗余和查询聚合,节省存储空间,又便于查询。另外,实体数据字段可以对应一个或多个可变属性字段实体,使得同一实体的属性数据信息整合存储,避免了在线查询时需要聚合大量的属性信息的问题,也不需要对查询返回结果进行大量的过滤及数据组合拼接操作,从而大量地节省了查询时间,进一步提升了用户体验。
优选地,实体数据库中针对一个实体的记录可以包括实体数据字段和一个或多个与实体数据字段相关联的可变属性字段,其中,将实体数据存储在实体数据字段中,将实体属性数据存储在可变属性字段中。
优选地,关系数据库中的每条记录可以包括两个节点和边信息,其中,将分别表示两个实体的两个实体数据分别存储在两个节点中,将表示两个实体之间的关系的实体间关系数据存储在边信息中。
优选地,实体数据库中针对一个实体的记录还可以包括元信息字段。
实体相关数据还可以包括与实体相关的元信息,元信息是使实体区别于其他实体的信息。
该方法还可以包括:将元信息存储在实体数据库中针对实体的记录中的元信息字段中。
这样,作为实体数据中的核心信息数据,元信息,就将不同的实体和实体数据进行了区分,特别是相同实体名称的不同实体。以便后期在对实体查询的时候可以准确地获得实体的相关信息。
优选地,实体相关数据还可以包括描述实体的类别的实体类别数据。该方法还可以包括:将与实体类别数据对应的类别标签存储在实体数据库中针对实体的记录中的元信息字段中,作为元信息字段中存储的内容的一部分。
其中,在类别数据库中,对应地存储有多个实体类别数据和类别标签,多个实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据。
这样,将实体类别数据分层次存储,使得实体相关数据的存储结构灵活,分类清晰。
优选地,在类别数据库中,可以与每个实体类别数据关联地存储有针对该实体类别数据所表示的实体类别定义的实体类别相关属性。
获取实体属性数据的步骤可以包括:
从类别数据库获得针对该实体所属的实体类别定义的实体类别相关属性;以及
从网页中获取描述该实体类别相关属性的实体属性数据。
这样,可以根据实体类别有针对性地获取实体属性数据,便于响应后期针对性地查询操作。在获取实体属性数据时,针对具体的实体,可以根据其类别,有针对性地获取实体属性数据,而不必去考虑与其无关的实体属性数据。例如,不会针对演员获取其国土面积。
优选地,可以将从多个网页获取的针对同一个实体的实体相关数据整合在一起;和/或
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州神马移动信息科技有限公司;,未经广州神马移动信息科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510083879.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电网数据处理方法及装置
- 下一篇:一种业务数据的处理方法、装置及服务器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置