[发明专利]一种面向网络安全领域实体快速识别的词典构造方法在审
申请号: | 202111222742.5 | 申请日: | 2021-10-20 |
公开(公告)号: | CN113971398A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 秦涛;刘博豪;李致远;马凯 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/295 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网络安全 领域 实体 快速 识别 词典 构造 方法 | ||
一种面向网络安全领域实体快速识别的词典构造方法,首先,构建网络安全领域本体,采用爬虫系统获取网络安全领域原始语料,对部分文本序列进行BIO人工标注后形成现有的网络安全领域实体标注语料,从中提取实体后构建基础词典。随后,整合现有与网络安全领域实体类型相关的词库,扩展基础词典。然后,一方面采用自主学习的方法从未标注数据集中选择大量数据,使用深度学习模型大规模自动标注,另一方面采用主动学习的方法从未标注数据集选择少量数据,使用词典指导精确自动标注后再进行人工检查。最后再次使用自动识别工具从新标注数据中提取新词,进行标注‑提取‑标注的循环,同时实现大规模全自动和精确快速的数据标注和词典扩充工作。
技术领域
本发明属于网络安全知识图谱构建技术领域,特别涉及一种面向网络安全领域实体快速识别的词典构造方法。
背景技术
当今社会正在迈入万物互联的新时代,在数据信息成为重要战略资源和新生产要素的同时,网络空间中的威胁和风险也日益增多。为有效掌握网络安全的整体态势,对当前网络空间安全状况进行总体研判和趋势分析,政府机关、相关企业等机构发布了大量有关漏洞、攻击、病毒等层面的网络安全文本序列。然而这些知识是典型的碎片化知识,需要进行分析处理,形成结构化数据才具有更强的决策支持力。鉴于上述背景,面向远程网络安全专家数据的网络安全知识图谱构建研究备受青睐,网络安全知识图谱能够将网络安全领域知识以图的形式展现出来,更体系化、关系化,从而帮助研究人员快速对网络安全态势进行感知和分析。而构建网络安全领域知识图谱的核心环节是信息抽取,即针对海量非结构化的网络安全文本序列进行命名实体识别和实体关系抽取。
命名实体识别是信息抽取和知识图谱构建的基础性工作,核心目标是提取出自然语句中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。历经二十多年的研究发展,命名实体识别领域已经涌现出多种技术,包括基于规则和词典的方法、基于机器学习的方法和基于深度学习的方法。基于规则和词典的方法能够在特定任务上取得较高的准确率,但需要耗费大量的人力进行规则和词典的构造,且无法进行很好的迁移;基于机器学习的方法能够克服这些弊端,但仍旧需要大量、高质量人工标记的训练集,且需要人为构造特征;而基于深度学习的方法,包括卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)等等,通过端到端的学习能够自动提取特征,但是仍然依赖大量、高质量的人工标记语料。可见,为有效训练模型,大规模的文本标注工作必不可少。然而在网络安全领域,中文网络安全知识图谱的构建刚刚起步,该领域的标注语料极其匮乏。
发明内容
为了克服上述现有技术的缺点,应用深度学习模型进行有效的监督学习,本发明的目的在于提供一种面向网络安全领域实体快速识别的词典构造方法,能够快速准确地对网络安全领域文本进行机器标注。
为了实现上述目的,本发明采用的技术方案是:
一种面向网络安全领域实体快速识别的词典构造方法,包括:
步骤1,构建基础词典:构建网络安全领域本体,基于本体确定进行实体识别和词典构造的实体类型,整合现有的网络安全领域语料,构建未标注数据集U和已标注数据集L,使用自动识别工具从已标注数据集L中识别出实体,构建基础词典D;
步骤2、扩展基础词典:利用现有与网络安全领域实体类型相关的词库对基础词典D进行扩展;
步骤3、通过主动学习抽样从未标注数据集U中选择S条信息更丰富的文本序列进行词典指导标注,随后人工检查,得到新标注数据集S;
步骤4、通过自主学习抽样从未标注数据集U中选择置信度最大且有效的T条文本序列进行基于深度学习的模型标注,得到新标注数据集T;
步骤5、更新标注数据集L和未标注数据集U,使用自动识别工具从新标注数据集S,T中提取新的实体,进行基础词典D的更新;
步骤6、迭代执行步骤3~步骤5,实现快速、精确的实体识别和词典扩充工作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111222742.5/2.html,转载请声明来源钻瓜专利网。