[发明专利]领域实体抽取方法、计算机设备、计算机可读介质及处理器有效
申请号: | 202010194752.1 | 申请日: | 2020-03-19 |
公开(公告)号: | CN113496120B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 徐一鸣;杨卫东;李洋 | 申请(专利权)人: | 复旦大学;珠海复旦创新研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 领域 实体 抽取 方法 计算机 设备 可读 介质 处理器 | ||
本发明提供一种领域实体抽取方法、计算机设备、计算机可读介质及处理器,用于构建一个能够对漏洞描述文本中的领域实体进行自动抽取的命名实体识别模型,其特征在于,包括如下步骤:步骤S1,构建领域实体库;步骤S2,构建外部字典;步骤S3,基于所述实体库以及所述外部字典对所述漏洞描述文本进行实体匹配从而抽取出每个所述漏洞描述文本中的所有领域实体;步骤S4,使用词性标注工具标注出每个所述漏洞描述文本中各个文本单词的词性;步骤S5,将所述漏洞描述文本、对应的所述领域实体以及所述文本单词的词性构建为训练用数据集并训练出命名实体识别模型。
技术领域
本发明属于网络安全领域,涉及一种基于深度学习技术的漏洞描述文本中的领域实体抽取方法、计算机设备、计算机可读介质及处理器。
背景技术
网络攻击的手段和种类具有多变化和复杂化的特点,要从中侦测和发现攻击是项具有挑战的任务。在过去,网络安全人员往往会通过阅读安全漏洞日志来发现包含漏洞的产品和漏洞利用的手段,以此来发布漏洞的修复补丁。但如今,软件数量日益增加,仅仅依靠人为地阅读漏洞日志是不太现实的,且也需要耗费大量的精力,因此自动化的从漏洞日志中获得信息是一项重要的而艰巨的任务,对于后续的网络安全态势感知具有重大意义。
目前,常见的漏洞日志自动化识别方法大致可分为:1)基于规则和字典的方法;2)基于传统机器学习模型的方法;3)基于深度学习的方法。通过上述方法,就能够自动地对漏洞日志中的信息进行识别,从而进一步实现自动判定、自动提醒等一系列的安全感知技术。
然而,上述自动化识别方法都需要预先准备好大量的训练集并进行训练,才能构建出这些方法或是模型从而更稳定且准确地进行识别。但是由于牵涉到具体领域,往往很难获得标注好的训练集。如果请领域专家进行手工标注,无疑会造成大量的人力资源浪费,并且手工获取大量准确标注的训练集费时费力。
发明内容
为解决上述问题,提供一种能够构建自动对漏洞描述文本中的领域实体进行准确抽取的命名实体识别模型的领域实体抽取方法,从而便于用户利用该命名实体识别模型自动地抽取领域实体并避免人为标注,进一步方便地形成训练集,本发明采用了如下技术方案:
本发明提供了一种领域实体抽取方法,用于对漏洞描述文本中的领域实体进行自动抽取从而得到已完成标注的训练集,其特征在于,包括如下步骤:步骤S1,基于公开的网络安全数据库及该网络安全数据库遵循的数据模式,获取网络安全数据库中所有有关漏洞的漏洞标识号、漏洞描述文本、漏洞所处的平台信息以及漏洞所影响的产品信息,并将漏洞标识号、平台信息以及产品信息分别作为漏洞实体、产品实体以及平台实体从而构成一个领域实体库;步骤S2,基于公开的漏洞缺陷枚举库,获取漏洞的攻击手段信息和漏洞影响信息并分别作为攻击手段实体和影响实体的外部字典;步骤S3,基于实体库以及外部字典对漏洞描述文本进行实体匹配从而抽取出每个漏洞描述文本中的所有领域实体;步骤S4,使用词性标注工具标注出每个漏洞描述文本中各个文本单词的词性;步骤S5,将漏洞描述文本、对应的领域实体以及文本单词的词性作为训练用数据集,训练出命名实体识别模型。
根据本发明提供的领域实体抽取方法,还可以具有这样的技术特征,其中,步骤S3中,采用BIEO标签法标识漏洞描述文本中相应的领域实体,若领域实体在外部字典和实体库中没有指定标签,那么该领域实体的标签标记为O,表示不属于任何实体。
根据本发明提供的领域实体抽取方法,还可以具有这样的技术特征,其中,命名实体识别模型的标注结果表示为与步骤S3相一致的BIEO标签法。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的领域实体抽取方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的领域实体抽取方法的步骤。
本发明还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的领域实体抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学;珠海复旦创新研究院,未经复旦大学;珠海复旦创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010194752.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:谐振变压器组合结构
- 下一篇:一种垃圾处理器控制方法及垃圾处理器