[发明专利]一种面向网络安全领域实体快速识别的词典构造方法在审
申请号: | 202111222742.5 | 申请日: | 2021-10-20 |
公开(公告)号: | CN113971398A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 秦涛;刘博豪;李致远;马凯 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/295 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网络安全 领域 实体 快速 识别 词典 构造 方法 | ||
1.一种面向网络安全领域实体快速识别的词典构造方法,其特征在于,包括:
步骤1,构建基础词典:构建网络安全领域本体,基于本体确定进行实体识别和词典构造的实体类型,整合现有的网络安全领域语料,构建未标注数据集U和已标注数据集L,使用自动识别工具从已标注数据集L中识别出实体,构建基础词典D;
步骤2、扩展基础词典:利用现有与网络安全领域实体类型相关的词库对基础词典D进行扩展;
步骤3、通过主动学习抽样从未标注数据集U中选择S条信息更丰富的文本序列进行词典指导标注,随后人工检查,得到新标注数据集S;
步骤4、通过自主学习抽样从未标注数据集U中选择置信度最大且有效的T条文本序列进行基于深度学习的模型标注,得到新标注数据集T;
步骤5、更新标注数据集L和未标注数据集U,使用自动识别工具从新标注数据集S、T中提取新的实体,进行基础词典D的更新;
步骤6、迭代执行步骤3~步骤5,实现快速、精确的实体识别和词典扩充工作。
2.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法,其特征在于,所述步骤1中,通过结合目标数据源,将核心概念集合划分为基础维、威胁维、脆弱维三个维度,并定义核心实体概念和实体概念之间的关系,构建网络安全领域本体,其中所述基础维是在网络安全领域所涉及到的包括软件、系统、硬件在内的基础范畴;脆弱维包括资产在软、硬件存在的安全隐患或者威胁及风险;威胁维包括网络安全事件中的各种攻击事件,攻击链路以及攻击方式和所造成的各种攻击结果。
3.根据权利要求2所述面向网络安全领域实体快速识别的词典构造方法,其特征在于,所述核心实体概念为16类,分别为软件(SW)、硬件(HW)、系统(OS)、版本(VER)、位置名称(LOC)、组织名称(ORG)、攻击者(AR)、主机(Host)、地址(Address)、漏洞编号(VI)、漏洞类型(VN)、攻击方式(AT)、恶意软件(MW)、结果(CSQ)、恶意软件类型(MWT)和网络流(FW);所述实体概念之间的关系为8种,分别为拥有、包含、属于、运行、存在、导致、利用和位于;基于该本体,确定14种实体类型用于实体识别和词典构造,包括:{软件名称(SW)、硬件(HW)、系统(OS)、版本(VER)、位置名称(LOC)、组织名称(ORG)、漏洞编号(VI)、漏洞类型(VN)、攻击者(AR)、攻击方式(AT)、恶意软件(MW)、结果(CSQ)、恶意软件类型(MWT)、网络流(FW)}。
4.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法,其特征在于,所述步骤1中,采用爬虫系统从各大网络安全信息网站和响应中心获取现有网络安全领域语料,爬虫系统获取到的数据经去重、整理后即形成未标注数据集U,随后选取部分文本序列采用BIO标注法人工标注,即将每个数据元素标注为为“B-X”、“I-X”或“O”的序列形式,其中B、I代表实体类型中的元素位置,X代表实体类型,O代表其他非实体元素,人工标注后形成已标注数据集L。
5.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法,其特征在于,所述自动识别工具中,对已标注数据集L中的每条文本序列X,检测标注不为“O”的字符,识别出实体的范围和实体类型,选择在所确定进行实体识别和词典构造的实体类型之内的实体,以实体名称为key,标注实体类型为value,将其以{key,value}的格式存入字典中,完成基础词典D的构建。
6.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法,其特征在于,所述步骤2中,将现有与网络安全领域实体类型相关的词库收集标注后统一存入基础词典D中,完成其扩展,所述词库包括:互联网公司名称词库,常用软件、硬件和操作系统词库以及漏洞类型词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111222742.5/1.html,转载请声明来源钻瓜专利网。