[发明专利]基于知识图谱的敏感识别方法有效
申请号: | 202011082927.6 | 申请日: | 2020-10-12 |
公开(公告)号: | CN112163160B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 王利娥;李小聪;李先贤 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/36 |
代理公司: | 桂林文必达专利代理事务所(特殊普通合伙) 45134 | 代理人: | 张学平 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 敏感 识别 方法 | ||
本发明公开了一种基于知识图谱的敏感识别方法,首先为了构建用户‑商品知识图谱,需要对获取的原始数据集进行预处理,并通过预处理后的数据构建用户‑物品的模式图,然后根据预处理后的数据和所述模式图构建知识图谱;其次,为了识别敏感数据,通过构建的敏感关系推理规则补全知识图谱中用户与物品间原本不存在的敏感关系;最后,对整个所述知识图谱查询出敏感数据,并输出,提高识别速度。
技术领域
本发明涉及数据安全技术领域,尤其涉及一种基于知识图谱的敏感识别方法。
背景技术
推荐系统是一种信息过滤工具,它旨在准确地预测用户对商品的偏好程度,从而把对用户更有价值的商品优先呈现给他们。而用户历史行为数据是推荐系统的支撑基础,用户的历史行为数据常常涉及到用户的个人敏感数据。对敏感数据进行隐私保护的前提是能从大量的数据中挑选出敏感数据,完成对敏感数据的识别。
传统的敏感数据的识别方法主要有字典匹配方法和人工识别这两种。业界大多采用字典匹配方法和人工识别方法相结合的方式对敏感数据进行识别。主要过程如下:用户定义敏感数据模式匹配式,根据预定义的模型确定字典匹配范围,然后使用字典匹配对目标进行匹配扫描,在完成扫描后,通过人工对匹配结果过滤,并对模式数据匹配式进行优化,但是因评判标准和字典匹配问题会导致识别速度慢。
发明内容
本发明的目的在于提供一种基于知识图谱的敏感识别方法,提高识别速度。
为实现上述目的,本发明提供了一种基于知识图谱的敏感识别方法,包括以下步骤:
对获取的原始数据进行预处理,并构建用户物品的模式图;
根据所述模式图和预处理后的数据,构建知识图谱;
构建敏感关系推理规则,并补全所述知识图谱;
对所述知识图谱中的敏感数据进行查询,并输出所述敏感数据。
其中,对获取的原始数据进行预处理,并构建用户物品的模式图,包括:
将获取的多种类型的原始数据中的数据存储格式和编码方法进行统一,同时对冗余的数据进行删除。
其中,对获取的原始数据进行预处理,并构建用户物品的模式图,还包括:
将用户年龄、职业、性别作为用户的属性,并标记用户与物品间的关系为购买关系,然后采用数据库工具对预处理后的数据进行实体对齐,构建用户物品的模式图。
其中,根据所述模式图和预处理后的数据,构建知识图谱,包括:
将用户和物品作为节点,并根据获取的所述用户和物品的每一个属性的键值对构建属性图模型。
其中,根据所述模式图和预处理后的数据,构建知识图谱,还包括:
将所述用户映射为头实体,将所述物品映射为尾实体,同时将所述用户与对应的所述物品之间的关系映射为0或1,并采用图数据库存储知识图谱。
其中,对所述知识图谱中的敏感数据进行查询,并输出所述敏感数据,包括:
利用图形查询语言查询补全后的所述知识图谱中的图形数据,根据声明的查询目标,返回所有具有对应敏感关系的用户和物品节点。
其中,对所述知识图谱中的敏感数据进行查询,并输出所述敏感数据,还包括:
根据数据存储格式和编码方法,将返回的敏感节点还原为对应的所述原始数据,并存入对应的保存文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011082927.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种负压自动打包装置及马桶
- 下一篇:一种用于对工件选择性电镀的工件夹具