[发明专利]一种基于自然语言语义转化的图数据库查询语句构建方法在审
申请号: | 202210460177.4 | 申请日: | 2022-04-28 |
公开(公告)号: | CN115329137A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 陆佳炜;李端倪;张元鸣;王琪冰;徐俊;肖刚;方静雯;郑嘉弘 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/9032;G06F16/906;G06F40/279;G06F40/30 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 汤明 |
地址: | 310014 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 语义 转化 数据库 查询 语句 构建 方法 | ||
本发明公开了一种基于自然语言语义转化的图数据库查询语句构建方法,包括以下步骤:1)按节点标签对图数据库节点进行分类,对分类结果进行实体抽取,建立抽象实体集E;2)利用同义词挖掘将抽象实体具化为语料实体,建立语料实体集C;3)定义基础图数据库查询语句模板;借助知识库选取自然语义,并将自然语义转化为形式语义;4)按顺序遍历语义实体集Q,构建查询子句pql;本发明提出了一种基于自然语言语义转化的图数据库检索服务构建方法,能够适用于多种不同类型的图数据库,泛用性良好。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于自然语言语义转化的图数据库检索服务构建方法。
背景技术
图数据库是以点、边为基础存储单元,以高效存储、查询图数据结构为设计原理的数据管理系统。“图”这一概念对于图数据库的理解至关重要。图是一种数据结构,是一组节点和边的集合。在图数据库中,节点代表实体或实例,相当于关系型数据库中的记录,或者文档数据库中的文档;边也被称作关系,边是节点连接到其他节点的线,代表节点之间的关系。边可以是有向的,也可以是无向的。在无向图中,连接两个节点的边具有单一含义。在有向图中,连接两个不同节点的边,根据它们的方向具有不同的含义。
图数据库在许多场景中得到了应用,例如:欺诈检测、推荐引擎、知识图谱。图数据库具体应用基于对图数据库的信息检索,而图数据库信息检索依赖于图数据库查询语言。
当今主流的图数据库查询语言有以下几种:Gremlin是Apache Tinkerpop 项目开发的图数据库查询语言,可实现过程性或声明性查询;Cypher是Neo4j提出的图数据库查询语言,是一种声明式的图数据库查询语言,它拥有精简的语法和强大的表现力,能够精准且高效地对图数据库进行查询和更新;PGQL是 Oracle开发的图数据库查询语言,用于从符合规范的顶点中搜索信息。图数据库查询语言之间没有统一的标准,语法之间存在差异,查询语言相互难以转化。为了解决该问题,国际标准化组织提出GQL这种查询语言,旨在成为一种通用的图数据库查询语言标准。图数据库查询语言面向专业的程序开发人员、数据分析人员设计,没有相关背景知识的普通用户难以使用。
专利号为:201410289468.7,名称为:支持自然语言的数据查询方法、开放平台及用户终端;在该专利中,开放平台接受用户终端发送的自然语言查询语句,将自然语言转换成第三方内容提供商所能识别的查询语句。然而该专利针对传统的关系型数据库设计,面向第三方内容提供商服务。既不能满足普通用户的检索需求,也无法为图数据库查询提供良好的支持。
申请号为201880033017.3,名称为:基于神经网络的自然语言查询到数据库查询的转换方法,。在该专利中,发明人综合使用聚合分类器模型、列预测器模型、子句预测器模型来实现自然语言查询到数据库查询的转换。然而使用神经网络来完成自然语言查询到数据库查询语言的转换,依赖大量的训练数据集,在实际应用环境中,获取大量的训练数据集耗时耗力,经济成本高。
目前并不存在一种高效便捷的图数据库检索服务方法,能将自然语言转化为图数据库查询语句,使得没有背景知识的普通用户可以用自然语言对图数据库进行检索查询。
发明内容
目前自然语言转化为图数据库查询语句的方法存在语境针对性差、语句转化效率低、转化方法缺乏普适性等问题。为了解决上述问题,本发明提出一种基于自然语言语义转化的图数据库检索服务构建方法。首先对图数据库进行实体抽取,接着借助人工词表在抽取结果的基础上建立语料实体集,利用语料实体集提取自然语言中的查询语义,最后通过基础图数据库查询语言模版将语义转化为查询语句。本发明有利于增强自然语义转化为图数据库查询语句过程的语境针对性、提高语句转化效率。
本发明所采用的技术方案是:
一种基于自然语言语义转化的图数据库查询语句构建方法,包括以下步骤:
步骤1:按节点标签对图数据库节点进行分类,对分类结果进行实体抽取,建立抽象实体集E。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210460177.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置的检查方法
- 下一篇:卷轴屏用双面胶带及其制备方法