[发明专利]基于自然资源产业链知识图谱的智能问答方法及系统有效
申请号: | 202210536817.5 | 申请日: | 2022-05-18 |
公开(公告)号: | CN114637766B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 闫伟;王超越;张亮;王吉华 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/28;G06F16/84;G06Q50/06 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然资源 产业链 知识 图谱 智能 问答 方法 系统 | ||
1.基于自然资源产业链知识图谱的智能问答方法,其特征是,所述方法包括:
获取自然资源产业数据;其中,所述自然资源产业数据,包括半结构化数据和结构化数据;将半结构化数据转换为新的结构化数据;将新的结构化数据与原结构化数据存储到关系数据库中;
对所有的结构化数据进行分析,构建出自然资源产业链的领域本体;将领域本体作为自然资源产业链知识图谱的模式层;
配置领域本体与关系数据库中结构化自然资源产业链数据之间的映射关系;基于映射关系将数据库中存储的结构化数据导出为三元组数据,将三元组数据作为自然资源产业链知识图谱的数据层;进而构建出自然资源产业链知识图谱;
获取自然资源产业方面的自然语言问题,基于自然资源产业链知识图谱对自然语言进行答案搜索,输出与自然语言对应的答案;
所述将半结构化数据转换为新的结构化数据;具体包括:
通过网络爬虫工具对网页内容中的非结构化数据进行噪声剔除;
将噪声剔除后得到的结构化数据导入到关系数据库MYSQL中,以实现将半结构化的数据转换为结构化的数据;
对所有的结构化数据进行分析,构建出自然资源产业链的领域本体;具体包括:
对结构化数据进行人工抽取、分析与总结,得到自然资源产业领域内的术语、基本概念以及概念之间的关系,最终构建出自然资源产业链领域本体,该本体作为自然资源产业链知识图谱中的模式层,模式层定义本体的概念以及关系;
对所有的结构化数据进行分析,构建出自然资源产业链的领域本体;具体包括:
通过自顶向下的方式构建自然资源产业链本体;
分析关系数据库中存储的自然资源产业链数据,确定本体构建所需要覆盖领域的常见概念和术语;
分析关系数据库中存储的自然资源产业链数据;该产业分为资源谱系、资产谱系、资本谱系、产业谱系、技术谱系;
创建自然资源产业链本体的类以及类的层次结构、关系、属性和本体公理;
创建自然资源产业链本体的类以及类的层次结构、关系、属性和本体公理;具体包括:
对于类的定义,自然资源领域本体中定义了资源谱系、技术谱系、资本谱系、资产谱系、产业谱系,每个抽象类中又根据不同领域和不同的分类定义了各级子类;
对于关系的定义,产业链中还大量存在着上下游关系以及相互具有价值的信息交换,因此父类与子类之间有“属于”、“前向带动”、“后向带动”关系;
配置领域本体与关系数据库中结构化自然资源产业链数据之间的映射关系;具体包括:
使用映射工具OnTop来自定义两种数据之间的映射规则;利用映射工具OnTop,以访问知识图谱的形式直接访问关系数据库,将存储在MySQL中的结构化数据转换成RDF数据,并通过预先构建的映射文件映射到定义的本体上,映射工具OnTop能够直接使用SPARQL语句将知识图谱表达为由关系源执行的SQL查询,进而查询到映射在本体中的产业链数据库中的信息,但数据保留在关系数据库中,而不是移动到另一个数据库中;通过映射工具OnTop将结构化数据映射到本体开发工具所编辑的本体上;
所述基于映射关系将数据库中存储的结构化数据导出为三元组数据,将三元组数据作为自然资源产业链知识图谱的数据层;具体包括:
使用OnTop内部的materialize命令将关系数据库中的结构化数据导出为RDF三元组格式的数据;
获取自然资源产业方面的自然语言问题,基于自然资源产业链知识图谱对自然语言进行答案搜索,输出与自然语言对应的答案;具体包括:
获取自然资源产业方面的自然语言问题;
对所述自然语言问题,进行分词、词性标注和关键词提取处理;
将关键词与预定义的问题模板进行匹配,筛选出相似度最高的问题模板;
所述将关键词与预定义的问题模板进行匹配,筛选出相似度最高的问题模板;具体采用相似度匹配算法进行相似度计算;所述相似度匹配算法为余弦相似度算法;
查找相似度最高的问题模板对应的查询语句,根据查询语句在自然资源产业链知识图谱中进行查询,通过响应函数输出最终的查询结果;
所述方法还包括:基于结构化数据,进行自然资源产业数据的可视化和分析;
三元组数据被存储到Apache-jena-fuseki服务器作为问答系统的数据来源;同时该服务器负责接收查询请求,并在接收请求后,对存储在该服务器的RDF三元组进行相应的SPARQL查询;同时负责查询结果的反馈;
基于结构化数据,进行自然资源产业数据的可视化和分析;具体包括:
实现自然资源产业知识链知识图谱的可视化存储及检索查询;
将本产业链知识图谱采用图数据库方式进行存储,通过浏览器远程进行产业链知识的更新与可视化;
产业链中的上游环节向下游环节输送产品或服务,下游环节向上游环节反馈信息即产业链中存在着上下游关系以及相互具有价值的信息交换,利用知识图谱的推理功能对存储在产业链知识图谱中的自然资源产业知识进行推理,从已知的自然资源产业知识与事实中获取并学习得到新的、未被挖掘到的知识,从而梳理出明确的自然资源产业上、下游的产业链关系、通过自然资源产业链关系明确自然资源产业各环节的竞争关系、明确自然资源产业板块主导产业方向;最终优化自然资源产业布局,完善产业链条。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210536817.5/1.html,转载请声明来源钻瓜专利网。