[发明专利]知识库构建方法、装置和知识搜索方法、系统在审
申请号: | 202010373034.0 | 申请日: | 2020-05-06 |
公开(公告)号: | CN111626568A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 何原荣;陈秋瑾;苏群;冷鹏;何婷婷 | 申请(专利权)人: | 厦门理工学院 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/26;G06N5/02;G06F16/35;G06F16/951 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭锦辉;陈艺琴 |
地址: | 361000 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 构建 方法 装置 知识 搜索 系统 | ||
本发明公开了一种自然灾害领域知识库构建方法,用于实现知识库的自动生成。所述方法包括:构建自然灾害领域的基础数据库;获取灾害文本数据;采用类机器学习方法从所述灾害文本数据中提取结构化灾害数据;按照预设分类对所述结构化灾害数据进行分类处理,得到灾害分类处理结果;采用数据分析算法对所述结构化灾害数据进行挖掘分析,得到灾害挖掘分析结果;整合与自然灾害相关的监测系统,从所述检测系统中提取自然灾害监测数据;基于上述步骤中获得的数据对所述基础数据库进行扩展,形成自然灾害领域知识库。本申请还公开了用于实现所述方法的装置,以及公开了知识搜索方法和搜索系统。
技术领域
本发明涉及计算机领域,尤其涉及一种知识库构建方法、装置和知识搜索方法、系统。
背景技术
随着全球气候变化及环境破坏,各类自然灾害发生事件也不断增多,对国家和人民生命财产安全造成的威胁日益突出,而目前绝大部分高校科研机构行业内缺乏一个针对自然灾害领域的搜索引擎或专家知识库管理系统,对研究人员快速的了解近期灾情动态和分析灾情数据造成不便。
而建立自然灾害领域的搜索引擎或专家知识库管理系统,需要建立在丰富且真实可靠的历史灾害数据积累之上,对数据的提取属于大数据的数据结构化技术范畴,大数据挖掘领域中,数据结构化是最关键的一步。由于互联网技术的飞速发展,在信息爆炸的网络中产生了大量的数据,其中绝大部分数据都是以文本等非结构或半结构的方式存储,所以挖掘大数据首先就是要系统地研究如何挖掘无结构的文本数据。网络爬虫是一个自动提取网页的程序,为搜索引擎从互联网上下载网页,是搜索引擎的重要组成部分。在对互联网上数据进行爬取、预处理、提取解析等过程后,Web文档会以文本数据存在,为了对文本数据中蕴含的知识进行挖掘推理,需要将文本数据转化为结构化数据。目前,从文本数据中提取结构化数据主要包括字符串匹配、正则表达式匹配以及机器学习中的神经网络等方法,但在数据量大时,字符串匹配和正则表达式匹配提取速率较低,无法解决互联网中数据呈指数增长、结构不断变化以及代码需要不断修改的问题,而机器学习中的神经网络方法提取的数据精度较低,对处理互联网上海量数据时会出现性能等问题瓶颈。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种知识库构建方法、装置和知识搜索方法、系统。
本发明通过以下技术方案来实现:
第一方面,提供一种自然灾害领域知识库构建方法,包括:
构建自然灾害领域的基础数据库;
获取灾害文本数据;
采用类机器学习方法从所述灾害文本数据中提取结构化灾害数据;
按照预设分类对所述结构化灾害数据进行分类处理,得到灾害分类处理结果;
采用数据分析算法对所述结构化灾害数据进行挖掘分析,得到灾害挖掘分析结果;
整合与自然灾害相关的监测系统,从所述检测系统中提取自然灾害监测数据;
基于所述灾害文本数据、所述结构化灾害数据、所述灾害分类处理结果、所述灾害挖掘分析结果以及所述监测数据对所述基础数据库进行扩展,形成自然灾害领域知识库。
第二方面,提供一种自然灾害领域知识搜索方法,包括:
根据用户输入的搜索词,获得与所述搜索词匹配的关键字;
通过知识库获得与所述关键字匹配的数据;
将所述数据发送给用户;
其中,所述知识库包括基于灾害文本数据、由类机器学习方法从灾害文本数据中提取的结构化灾害数据、灾害分类处理结果、灾害挖掘分析结果以及监测数据对基础知识库进行扩展,所形成的自然灾害领域知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门理工学院,未经厦门理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010373034.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理