[发明专利]安全领域实体识别方法、装置及电子设备在审
申请号: | 202111303272.5 | 申请日: | 2021-11-05 |
公开(公告)号: | CN113971280A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 顾杜娟;周娟;袁军;章瑞康;李文瑾;叶晓虎 | 申请(专利权)人: | 绿盟科技集团股份有限公司;北京神州绿盟科技有限公司 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F40/211;G06F40/242;G06F40/253;G06F40/289;G06N20/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 张燕 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 安全 领域 实体 识别 方法 装置 电子设备 | ||
1.一种安全领域实体识别方法,其特征在于,包括:
获取待处理的威胁情报文本,并基于预设的文本修正模型,对所述威胁情报文本进行文本特征提取,获得所述威胁情报文本的文本特征;
基于获得的所述文本特征,从所述威胁情报文本中,确定相应的目标待修正字符;
对所述目标待修正字符进行修正处理,获得相应的修正情报文本;
利用预设的多任务实体识别模型,对所述修正情报文本进行实体识别,获得相应的实体识别结果。
2.如权利要求1所述的方法,其特征在于,所述获取待处理的威胁情报文本之前,还包括:
获取携带修正标注的第一训练数据,其中,所述修正标注至少包括:文本修正标注及字符修正标注;
基于预设的词典库及扩充规则库,对所述携带修正标注的第一训练数据进行数据扩充,获得相应的携带修正标注第一训练扩充数据;
采用所述第一扩充训练数据对所述文本修正模型进行训练,直至达到第一训练结束条件。
3.如权利要求2所述的方法,其特征在于,所述获取携带修正标注的第一训练数据,包括:
获取非结构化的威胁情报数据;
基于预设的情报解析算法,对所述非结构化的威胁情报数据进行文本解析,获得相应的情报文本数据;
基于预设的清洗规则,对所述情报文本数据进行数据清洗,并对清洗后的所述情报文本数据进行分词、分句处理,获得相应的第一训练数据;
基于预设的标注规则库,对所述第一训练数据中包含的指定实体词进行修正标注,获得携带修正标注的第一训练数据,其中,所述修正标注至少包括:文本修正标注及修正类型标注。
4.如权利要求1、2或3所述的方法,其特征在于,所述获取待处理的威胁情报文本之前,还包括:
获取针对所述多任务实体识别模型的第二训练数据;
利用训练结束的所述文本修正模型,对所述第二训练数据进行修正处理,获得修正后的第二训练数据;
基于预设的词典库及实体规则库,对所述修正后的第二训练数据进行实体标注,获得相应的携带实体标注的第二训练数据,其中,所述实体标注包括:实体位置标注及实体类型标注;
采用所述携带实体标注的第二训练数据对所述多任务实体识别模型进行训练,直至达到第二训练结束条件。
5.如权利要求4所述的方法,其特征在于,所述采用所述携带实体标注的第二训练数据对所述多任务实体识别模型进行训练,直至达到第二训练结束条件之后,还包括:
获取未携带实体标注的第二训练数据;
利用所述多任务实体识别模型,对所述第二训练数据进行实体预测,获得相应的实体预测结果,其中,所述实体预测结果包含至少一个实体词及每个实体词相应的置信度分值;
基于预设的词典库及实体规则库,对获得的实体预测结果进行修正,获得相应的修正实体预测结果;
基于所述修正实体预测结果,对所述未携带实体标注的第二训练数据进行实体标注,获得新增携带实体标注的第二训练数据;
采用所述新增携带实体标注的第二训练数据继续对所述多任务实体识别模型进行训练,直至达到第三训练结束条件。
6.如权利要求5所述的方法,其特征在于,所述修正实体预测结果包含至少一个与预设的词典库及实体规则库匹配的候选实体词,以及每个候选实体词相应的置信度分值;所述基于所述修正实体预测结果,对所述未携带实体标注的第二训练数据进行实体标注,包括:
基于预设的目标置信度分值阈值,选取相应数目的候选实体词作为目标实体词;
根据获得的各个目标实体词,对所述未携带实体标注的第二训练数据进行实体标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绿盟科技集团股份有限公司;北京神州绿盟科技有限公司,未经绿盟科技集团股份有限公司;北京神州绿盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111303272.5/1.html,转载请声明来源钻瓜专利网。