[发明专利]信息识别方法及装置在审
申请号: | 201910907499.7 | 申请日: | 2019-09-24 |
公开(公告)号: | CN110727955A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 周鑫;许宗怡 | 申请(专利权)人: | 中企链信科技有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 11265 北京挺立专利事务所(普通合伙) | 代理人: | 张智锐 |
地址: | 710000 陕西省西安市高新*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 预设 计算机信息处理 检测漏洞 敏感信息 模板比较 向量比较 信息识别 信息提取 原始信息 中英文 | ||
本公开提供一种信息识别方法及装置,涉及计算机信息处理领域,能够解决由于特殊字符或中英文间隔或互转等情况引起的检测漏洞的问题。具体技术方案为获取第一信息,其中,所述第一信息是原始信息;根据所述第一信息提取第二信息,其中,所述第二信息包括所述第一信息的模板和/或所述第一信息的向量;将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较;如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致,识别所述第一信息是敏感信息。
技术领域
本公开涉及计算机数据处理领域,尤其涉及信息识别方法及装置。
背景技术
随着互联网,移动互联网,物联网等新兴技术的发展,对大家的日程生活带来很大的便利,时信息的传播更快也更广,在这样的背景下,一些敏感信息或一些不方便公布与众的企业或个人信息,一旦由于疏忽或其他原因被相关系统泄露将带来巨大的经济损失和名誉损失,严重时相关责任方有可能还会承担法律责任。
目前已经有一些技术方法可以处理这个问题,但或多或少在使用和效率上存在一些问题,如制定敏感信息的识别规则需要一定的知识背景,规则不便于读或不便于业务维护;对敏感信息的匹配和识别会影响到系统的效率,在一定条件下会影响到系统的响应时间;由于中文的特点,造成的检测遗留。
本公开实施例提供一种信息识别方法及装置,能够解决敏感信息检测不全面的问题。所述技术方案如下:
根据本公开实施例的第一方面,提供一种信息识别方法,该方法包括:
获取第一信息,其中,所述第一信息是原始信息;
根据所述第一信息提取第二信息,其中,所述第二信息包括所述第一信息的模板和/或所述第一信息的向量;
将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较;
如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致,识别所述第一信息是敏感信息。
在一个实施例中,上述方法还包括:
如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量不一致,识别所述第一信息是非敏感信息。
在一个实施例中,根据所述第一信息提取第二信息包括:
从预设运算符堆栈中获取运算符;
从操作数堆栈中读取操作数;
根据所述运算符和操作数确定所述第一信息的模板。
在一个实施例中,根据所述第一信息提取第二信息包括:
根据所述运算符和操作数按照预设规则确定所述第一信息的向量。
在一个实施例中,获取第一信息之前,所述方法还包括:
通过web页面获取输入的预设模板和/或预设向量。
在一个实施例中,将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较包括:
计算所述第一信息的模板和预设模板比较的第一相似度和/或计算所述第一信息的向量和预设向量的第二相似度;
当所述第一相似度高于第一预设阈值和/或第二相似度高于第二预设阈值时,确定所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致。
在一个实施例中,根据所述运算符和操作数按照预设规则确定所述第一信息的向量包括:
对第一信息按照预设文本规则进行分类,得到至少一个分类列表集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中企链信科技有限公司,未经中企链信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910907499.7/2.html,转载请声明来源钻瓜专利网。