[发明专利]基于公开数据源的ICT供应链关系画像在审
申请号: | 202010811447.2 | 申请日: | 2020-08-13 |
公开(公告)号: | CN112100235A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 罗森林;吴倩;黄元飞;王博;蔡成成;吴舟婷;潘丽敏 | 申请(专利权)人: | 北京理工大学;国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F40/242;G06Q30/08;G06Q50/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 公开 数据源 ict 供应 关系 画像 | ||
本发明涉及一种基于公开数据源的供应关系画像方法,属于自然语言处理与机器学习领域。主要为了开展国内ICT供应链安全风险问题研究,支撑我国网络空间安全战略落地。本发明首先获取招投标网站公开数据源,针对获取的不同类型附件,编写对应处理脚本,提取附件文本信息;后对每条数据进行结构化,抽取多维属性信息;再使用ICT产品词典过滤,构建ICT领域招投标数据库;然后结合实体匹配技术,挖掘多层级供应关系;最后进行供应链归并聚合,建立招标、产品、中标供应关系画像。该方法在建立的ICT招投标数据库的基础上,构建多个行业、多种产品的供应链关系画像,ICT相关采购数据覆盖率达98%,ICT供应链信息准确率达96%。
技术领域
本发明涉及基于公开数据源的ICT供应链关系画像,属于自然语言处理与机器学习领域。
背景技术
信息和通信技术供应链(Information and Communications Technology SupplyChain Management,简称ICT供应链)具备全球分布性以及供应商多样性等特点,与此同时也带来了供应中断、信息泄露等安全隐患。
自2000年起,美国就持续从战略高度关注ICT供应链安全态势,颁布了各类政策来保障ICT供应链安全;俄罗斯自2009年起,努力确保信息技术产品和服务供应链的安全,防止他国利用自身资源、关键设施、核心技术及其他优势,削弱落后国家对信息技术的自主控制权;英国和法国也与2009年起先后提出涵盖ICT安全的网络信息安全战略。相对于美国、俄罗斯以及欧洲对ICT供应链安全的高度重视以及对此类研究的大力发展,我国由于部分ICT产业高尖端技术长期被国外垄断,关键基础设施面临被植入后门、漏洞、停止服务等多种潜在高危风险,ICT供应链安全形势比之国外相对严峻,同时ICT领域供应关系画像与分析研究相对缺乏。
为有效管控ICT供应链的安全风险,需要充分挖掘多层级供应关系,在安全事件发生时,及时开展关联分析、评估事件影响范围。各行业招投标平台网站、供应商官网公开数据可以为ICT供应链多层级关系挖掘提供可行性,而基于公开数据挖掘ICT供应链网络关系面临的首要问题就是ICT招投标项目和供应商产品的正确文本匹配。
早期实体匹配研究大多采用基于字符串相似度的匹配方法,但均存在需要人工抽取特征、依赖专家领域知识、人工成本高的缺点。深度学习能够自动学习特征表示,避免了人工设计特征的缺陷。综合分析,CNN可通过将不同窗口大小的差异局部信息进行整合来推断句子的相似性,但是无法捕捉自然语言序列的时序信息,且需要大量的标签数据来训练网络;RNN模型在序列信息的学习上已被证明具有完备的结构特性,但其无法避免由梯度消失引起的权重矩阵优化困难;LSTM弥补了RNN梯度消失的缺陷,通过使用可存储跨长输入序列信息的内存单元来学习远程依赖关系,可学习深度语义特征。因此在构建供应链关系画像的过程中,考虑使用LSTM特征提取器结合孪生网络进行ICT供应链招投标项目与企业产品实体匹配工作。
发明内容
本发明的目的是针对ICT领域供应关系画像缺乏的问题,构建一种基于公开数据源的供应关系画像方法。
本发明的设计原理为:首先获取招投标网站公开数据源,针对获取的不同类型附件,编写对应处理脚本,提取附件文本信息;后对每条数据进行结构化,抽取多维属性信息;再使用ICT产品词典过滤,构建ICT领域招投标数据库;然后结合实体匹配技术,挖掘多层级供应关系;最后进行供应链归并聚合,建立招标、产品、中标供应关系画像。
本发明的技术方案是通过如下步骤实现的:
步骤1,获取不同行业招投标网站公开数据源,并进行结构化和过滤,构建ICT招投标数据库:
步骤1.1,从多个行业,多个平台获取公开招投标数据源,针对获取的不同类型附件,编写对应处理脚本,提取附件文本信息;
步骤1.2,结构化每条招投标数据,抽取招标方、招标项目、中标方、中标金额等13维属性信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学;国家计算机网络与信息安全管理中心,未经北京理工大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010811447.2/2.html,转载请声明来源钻瓜专利网。