[发明专利]安全领域实体识别方法、装置及电子设备在审
申请号: | 202111303272.5 | 申请日: | 2021-11-05 |
公开(公告)号: | CN113971280A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 顾杜娟;周娟;袁军;章瑞康;李文瑾;叶晓虎 | 申请(专利权)人: | 绿盟科技集团股份有限公司;北京神州绿盟科技有限公司 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F40/211;G06F40/242;G06F40/253;G06F40/289;G06N20/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 张燕 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 安全 领域 实体 识别 方法 装置 电子设备 | ||
本申请实施例提出了一种安全领域实体识别方法、装置及电子设备,通过训练相应的文本修正模型,一方面,在实体识别的过程中,基于文本修正模型对威胁情报文本作出的修正处理,确保了威胁情报文本的信息完整性及精确性,从而有效提高了实体识别的准确率,另一方面,在多任务实体识别模型的训练过程中,通过文本修正模型在每次多任务实体识别模型训练时,针对第二训练数据进行的相应修正处理,提高了每次训练语料的完整性及精确性,从而提高了多任务实体识别模型的识别准确度,并使得安全领域实体识别的准确率得到显著提高。
技术领域
本发明涉及信息安全领域,尤其涉及一种安全领域实体识别方法、装置及电子设备。
背景技术
随着网络环境日趋复杂,网络攻击事件日益增多,为应对这些网络攻击事件,相关部门发布了大量的网络威胁情报,通过对这些实时发布的威胁情报进行分析、整理,有助于提前了解相关安全系统的各方面漏洞以及追踪漏洞线索等,从而确保网络空间的安全性。
为了从海量的网络威胁情报中抽取出安全系统可读的结构化安全信息,需要应用实体识别技术(Entity Recognition,ER)、图谱可视化技术、知识推理技术等,其中,实体识别技术是一种对非结构化文本中记录的特定实体数据进行分析、识别的信息提取技术,旨在获取网络威胁情报中被记录的威胁实体,如,攻击者、攻击模式、IP、域名等。
相关技术中,常常基于机器学习的方法,针对特定的网络威胁情报文本进行分词、分句等操作,从而获得大量的实体训练数据,再根据大量的实体训练数据,对预设的实体识别模型进行迭代训练,从而基于训练完成的实体识别模型,从待识别的威胁情报文本中提取出相应的实体数据。
然而,网络威胁情报文本具有结构多变的特点,在一些特殊情况下,针对网络威胁情报文本进行分词、分句后,获得的实体训练数据中,可能会出现无效字符、无效拼接等情况,导致这种方式下,训练得到的实体识别模型的识别准确度较低。
发明内容
本申请实施例提供一种安全领域实体识别方法、装置、电子设备及存储介质,用于提高安全领域实体识别的准确率。
第一方面,本申请实施例提供了一种安全领域实体识别方法,包括:
获取待处理的威胁情报文本,并基于预设的文本修正模型,对威胁情报文本进行文本特征提取,获得威胁情报文本的文本特征。
基于获得的文本特征,从威胁情报文本中,确定相应的目标待修正字符。
对目标待修正字符进行修正处理,获得相应的修正情报文本。
利用预设的多任务实体识别模型,对修正情报文本进行实体识别,获得相应的实体识别结果。
第二方面,本申请实施例还提供了一种安全领域实体识别装置,包括:
获取模块,用于获取待处理的威胁情报文本,并基于预设的文本修正模型,对威胁情报文本进行文本特征提取,获得威胁情报文本的文本特征。
确定模块,用于基于获得的文本特征,从威胁情报文本中,确定相应的目标待修正字符。
修正模块,用于对目标待修正字符进行修正处理,获得相应的修正情报文本。
实体识别模块,用于利用预设的多任务实体识别模型,对修正情报文本进行实体识别,获得相应的实体识别结果。
在一种可选的实施例中,在获取待处理的威胁情报文本之前,获取模块还用于:
获取携带修正标注的第一训练数据,其中,修正标注至少包括:文本修正标注及修正类型标注。
基于预设的词典库及扩充规则库,对携带修正标注的第一训练数据进行数据扩充,获得相应的携带修正标注第一训练扩充数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绿盟科技集团股份有限公司;北京神州绿盟科技有限公司,未经绿盟科技集团股份有限公司;北京神州绿盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111303272.5/2.html,转载请声明来源钻瓜专利网。