[发明专利]基于语义的文档指纹构建方法、存储介质和计算机设备在审
申请号: | 201811266721.1 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109344407A | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 宋鹏举 | 申请(专利权)人: | 北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F21/62 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 秦莹 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 文档数据 指纹 计算机设备 存储介质 构建 文档 词汇 电子文档数据 电子文档 语义分析 有效地 泄露 采集 安全 | ||
本发明提出了一种基于语义的文档指纹构建方法、存储介质和计算机设备,其中,所述方法包括:采集需要保护的文档数据;对所述文档数据进行语义分析获得多个有用词汇;根据所有所述有用词汇生成所述文档数据对应的语义指纹。这样能够安全有效地保护具有相似语义的电子文档,降低了电子文档数据泄露的风险。
技术领域
本发明涉及计算机数据安全领域,尤其涉及文档指纹的获取方法,具体来说就是一种基于语义的文档指纹构建方法、存储介质和计算机设备。
背景技术
电子文档在办公、教学等工作中给人们带来方便的同时,也存在巨大的安全风险。电子文档的安全越来越被人们关注,日常工作及生活中有很多重要的电子文档需要保护,而电子文档的价值只有在使用过程中才会体现出来,在有效保护数据的前提下充分使用数据,成为人们的迫切需求。
文档指纹(Document Fingerprinting)亦称文件指纹,通过抽取文件的特征生成文档指纹,通过文档指纹能够完成对重要数据的保护。在现有文档指纹技术方案中,通常采用某种特征抽取方法,直接对电子文档进行特征抽取,然后对抽取的特征采用某种技术构建文档指纹。其中,常用的特征抽取方法包括基于滑动窗口的方法,基于中文分词权重度量的方法,基于二进制的方法。但是,现有文档指纹技术虽然能够对电子文档构建有效文档指纹,但并没有理解文档的语义。通常一份电子文档,可以通过不同的叙述方法,完成相同的语义内容,因此,现有文档指纹技术不能完成相似语义内容电子文档的安全防护。
因此,本领域技术人员亟需研发一种电子文档的指纹构建方法,能够有效安全地防护具有相似语义的电子文档。
发明内容
有鉴于此,本发明要解决的技术问题在于提供一种基于语义的文档指纹构建方法、存储介质和计算机设备,解决了现有文档指纹不能有效保护相似语义电子文档的问题。
为了解决上述技术问题,本发明的具体实施方式提供一种基于语义的文档指纹构建方法,包括:采集需要保护的文档数据;对所述文档数据进行语义分析获得多个有用词汇;根据所有所述有用词汇生成所述文档数据对应的语义指纹。
进一步地,基于语义的文档指纹构建方法还包括:根据多个所述文档数据的所述语义指纹生成语义指纹库。
进一步地,基于语义的文档指纹构建方法还包括:抽取待检文档数据的语义;将所述语义与所述语义指纹库中的所述语义指纹进行比对;根据比对结果处理所述待检文档数据。
其中,处理所述待检文档数据具体包括:对所述待检文档数据进行阻断、告诫或放行操作。
进一步地,对所述文档数据进行语义分析获得多个有用词汇的步骤具体包括:利用语义分析算法对所述文档数据进行语义分析获得多个词汇;度量所述词汇的重要度;根据所述重要度过滤掉多个所述词汇中的停用词汇获得多个所述有用词汇。
其中,所述语义分析算法包括:基于词典的双向匹配分词算法、基于HMM的词法分析方法和基于CRF的词法分析方法。
进一步地,根据所有所述有用词汇生成所述文档数据对应的语义指纹的步骤具体包括:根据所有所述有用词汇构建Term-Doc矩阵;利用矩阵奇异值分解算法分解所述Term-Doc矩阵得到左向量、右向量和特征矩阵;根据预设指纹大小对所述特征矩阵进行降维处理得到降维特征矩阵;根据所述左向量、所述降维特征矩阵和所述右向量获得所述Term-Doc矩阵的近似矩阵;根据所述近似矩阵生成所述文档数据对应的语义指纹。
进一步地,根据所述近似矩阵生成所述文档数据对应的语义指纹的步骤具体包括:将所述近似矩阵每行作为一个特征向量;根据所有所述特征向量直接拼接所述文档数据的语义指纹。
本发明的具体实施方式还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现基于语义的文档指纹构建方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司,未经北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811266721.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:词性标注方法、装置和电子设备
- 下一篇:一种译文检测方法、装置及电子设备