[发明专利]基于知识图谱的敏感识别方法有效

申请号：	202011082927.6	申请日：	2020-10-12
公开（公告）号：	CN112163160B	公开（公告）日：	2023-08-08
发明（设计）人：	王利娥;李小聪;李先贤	申请（专利权）人：	广西师范大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/36
代理公司：	桂林文必达专利代理事务所(特殊普通合伙) 45134	代理人：	张学平
地址：	541004 广西壮***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于知识图谱敏感识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于知识图谱的敏感识别方法，首先为了构建用户‑商品知识图谱，需要对获取的原始数据集进行预处理，并通过预处理后的数据构建用户‑物品的模式图，然后根据预处理后的数据和所述模式图构建知识图谱；其次，为了识别敏感数据，通过构建的敏感关系推理规则补全知识图谱中用户与物品间原本不存在的敏感关系；最后，对整个所述知识图谱查询出敏感数据，并输出，提高识别速度。

技术领域

本发明涉及数据安全技术领域，尤其涉及一种基于知识图谱的敏感识别方法。

背景技术

推荐系统是一种信息过滤工具，它旨在准确地预测用户对商品的偏好程度，从而把对用户更有价值的商品优先呈现给他们。而用户历史行为数据是推荐系统的支撑基础，用户的历史行为数据常常涉及到用户的个人敏感数据。对敏感数据进行隐私保护的前提是能从大量的数据中挑选出敏感数据，完成对敏感数据的识别。

传统的敏感数据的识别方法主要有字典匹配方法和人工识别这两种。业界大多采用字典匹配方法和人工识别方法相结合的方式对敏感数据进行识别。主要过程如下：用户定义敏感数据模式匹配式，根据预定义的模型确定字典匹配范围，然后使用字典匹配对目标进行匹配扫描，在完成扫描后，通过人工对匹配结果过滤，并对模式数据匹配式进行优化，但是因评判标准和字典匹配问题会导致识别速度慢。

发明内容

本发明的目的在于提供一种基于知识图谱的敏感识别方法，提高识别速度。

为实现上述目的，本发明提供了一种基于知识图谱的敏感识别方法，包括以下步骤：

对获取的原始数据进行预处理，并构建用户物品的模式图；

根据所述模式图和预处理后的数据，构建知识图谱；

构建敏感关系推理规则，并补全所述知识图谱；

对所述知识图谱中的敏感数据进行查询，并输出所述敏感数据。

其中，对获取的原始数据进行预处理，并构建用户物品的模式图，包括：

将获取的多种类型的原始数据中的数据存储格式和编码方法进行统一，同时对冗余的数据进行删除。

其中，对获取的原始数据进行预处理，并构建用户物品的模式图，还包括：

将用户年龄、职业、性别作为用户的属性，并标记用户与物品间的关系为购买关系，然后采用数据库工具对预处理后的数据进行实体对齐，构建用户物品的模式图。

其中，根据所述模式图和预处理后的数据，构建知识图谱，包括：