[发明专利]一种基于知识图谱的项目预算分析方法及系统在审
申请号: | 202110153971.X | 申请日: | 2021-02-04 |
公开(公告)号: | CN112800243A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 衣秀;张成;苏卫卫;黄瑞;程龙 | 申请(专利权)人: | 天津德尔塔科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F16/35;G06F16/901;G06F40/284;G06F40/44;G06F16/38 |
代理公司: | 天津市尚仪知识产权代理事务所(普通合伙) 12217 | 代理人: | 邓琳 |
地址: | 300384 天津市滨海新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 项目 预算 分析 方法 系统 | ||
发明提供一种基于知识图谱的项目预算分析方法及系统,所述项目预算分析方法包括以下步骤:知识获取:使用内部开发的爬虫工具爬取相关的文档,并存入在文件系统中;知识抽取:对所有包含program和project项目实体的文档进行知识抽取;知识存储:将抽取的知识信息存入图数据库;数据分析:包括针对文本的热词、新词、分类和聚类分析,也包括基于知识图谱的项目关系分析。本发明引入知识图谱,输入或者选择待分析的实体信息,可以获得实体语义网络,能产出比人工分析更全面的关联关系,且通过使用图数据库进行存储,检索速度更快。
技术领域
本发明属于项目预算分析技术领域,尤其涉及一种基于知识图谱的项目预算分析方法及系统。
背景技术
随着大数据和自然语言处理技术的发展,人们对于国防预算的分析,已经不仅限于对结构化数据的统计分析,还有强烈的非结构化文本分析的需求以及分析目标的关联关系的需求。
结构化数据的统计分析,从横向、纵向、同比、环比等多个角度进行分析,并通过可视化展现,能够直观的看到预算的变化及重点领域分布。如通过计算每年的预算变化,可以产出增长率趋势;通过统计每个领域的预算值,可以获得当年重点发展方向,如2020年美国重点发展太空和网络空间等新兴作战域、陆海空作战能力的现代化、人工智能和高超声速等技术创新以及维持战备等四大领域。
文本分析,将数据从无结构或者半结构化的文本转化成结构化的计算机可以识别处理的信息,通常使用自然语言处理技术实现分析。自然语言处理是人工智能的重要分支之一,涉及语言学、计算机科学等多门学科知识,主要包括词汇分析、句法分析、分类、聚类、信息抽取、关联分析和预测分析等。信息抽取是从自由文本中抽取知识,是知识图谱构建的基石。
知识图谱,是一种基于图的数据结构,由节点(Point)和边(Edge)组成,每个节点表示一个实体,每条边为实体与实体之间的关系,把所有不同种类的信息连接在一起而得到一个关系网络,因此知识图谱提供了从“关系”的角度去分析问题的能力。
当前,计算机解决的主要是采用结构化数据驱动的方式,从样本数据中建立统计模型,挖掘统计规律,但单纯的数据驱动方式面临效果的天花板,需要知识的引导突破。如果没有分析这些海量的非结构化数据,则数据的巨大价值无法发挥。
因此,急需一种基于知识图谱的项目预算分析方法及系统,主要分析文本类的非结构化数据,通过分析揭示出潜藏在文本信息当中的趋势和关联,为商业决策、行业趋势研究和热点内容追踪提供有力支持。
发明内容
为了解决上述技术问题,本发明提供一种基于知识图谱的项目预算分析方法及系统,所述项目预算分析方法包括以下步骤:
步骤1:知识获取:使用内部开发的爬虫工具爬取相关的文档,并存入在文件系统中;
步骤2:知识抽取:对所有包含program和project项目实体的文档进行知识抽取;
步骤3:知识存储:将抽取的知识信息存入图数据库;
步骤4:数据分析:包括针对文本的热词、新词、分类和聚类分析,也包括基于知识图谱的项目关系分析。
优选的,所述步骤2包括以下步骤:
步骤21:属性抽取:抽取program的ID、名称、计划年份、数据类型、所属阶段、该项目的任务、总结、备注以及前两年执行预算、前一年批复预算、当前年预算和后四年计划预算信息;
步骤22:关系抽取:抽取项目转移、项目资金支持、项目技术支持、项目联合关联关系。
优选的,所述步骤4包括以下步骤:
步骤41:热词分析:通过词频统计产出关注度高的一组词,并以词云展现;
步骤42:新词识别:产出新的一年会出现的新术语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津德尔塔科技有限公司,未经天津德尔塔科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110153971.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于非线性时间序列算法的电力负荷预测方法及系统
- 下一篇:空气阻尼器