[发明专利]用于为文本数据匿名化生成参考数据结构的方法和系统在审

专利信息
申请号: 202080102413.4 申请日: 2020-07-28
公开(公告)号: CN115702422A 公开(公告)日: 2023-02-14
发明(设计)人: 罗兹贝赫·贾拉利;郭浩林;陈文;迈克尔志鸿·李;张赞庆 申请(专利权)人: 华为云计算技术有限公司
主分类号: G06F21/62 分类号: G06F21/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 550025 贵州省贵阳市*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 文本 数据 匿名 化生 参考 数据结构 方法 系统
【说明书】:

一种使用机器学习为K匿名模型自动生成参考数据结构的方法和系统。矢量空间从参考文本数据生成,其中,所述矢量空间由表示所述参考文本词的语义含义的数值矢量定义。输入文本词是使用所述矢量空间转换为数值矢量的。词簇是根据所述输入文本词之间的语义相似性形成的,其中,输入文本词对之间的语义相似性由从数值矢量对确定的度量值表示。所述词簇定义所述参考数据结构的节点。文本标签应用于所述参考数据结构的每个节点,其中,所述文本标签表示所述词簇的元素共享的语义含义。

相关申请案的交叉引用

本申请要求于2020年6月26日提交的发明名称为“用于为文本数据匿名化生成参考数据结构的方法和系统”的美国专利申请序列号16/913,711的优先权,该美国专利申请的内容通过引用全部并入本文。

技术领域

本发明涉及生成参考数据结构的方法和系统,具体地涉及生成用于文本数据匿名化的参考数据结构的方法和系统。

背景技术

随着技术的出现,所有学科的数据生成都以前所未有的速度增长。至少随着数据量的迅速增加而带来的主要挑战之一是提供数据隐私。数据匿名化是可用于保护隐私和确保防止个人身份或其敏感信息泄露的技术之一。

用于实现数据匿名化的方法之一是K匿名模型,广义上讲,它是一种泛化技术,用于描述匿名的数据集级别。K匿名模型假设给定数据集中的记录可以是结构化格式,以表的形式排列,其中行表示单个记录,列包含每个记录的属性。匿名化的过程涉及用不太具体的广义术语替换作为特定标识符的属性值。因此,K匿名模型的主要目标是转换数据集,使得记录与其对应实体之间的关联不能以大于1/K的概率确定(K是记录的数量)。为此,任何K匿名模型都要求将数据集中的记录划分为簇集,簇集中的每个簇至少包含K个记录,以便每个记录至少与(K–1)个其它记录无区分。为了提高数据质量,还期望给定簇中的记录也应尽可能彼此相似。当簇中的记录被修改为具有相同的广义词语时,这将有助于减少数据失真。

一些属性,例如那些包含数值的属性,可以很容易地泛化为数值区间。其它属性,例如那些具有基于文本的值的属性,则更难泛化。通常,当将K匿名应用于包含基于文本的属性的数据集时,部分或所有属性的文本值将被泛化并替换为类似的值,例如,语义一致但不太具体。

但是,过度泛化可能会加剧数据失真。可用于增强K匿名实现的技术之一是从数据生成参考数据结构,例如分类层次树。该参考数据结构可以将相似的实体聚类在一起,方式为使得一个簇中的实体彼此之间比其它簇中的其它实体更相似。更重要的是,参考数据结构中的每个簇都可以用一个广义词语来标识,该词语也可以作为一个有意义的名称来表示整个簇,并且可以用于替换同一簇的任何成员。然后,相同参考数据结构级别的簇的广义词语可以进一步泛化到更高级别,从而有助于减少数据失真。

目前,K匿名模型的参考数据结构通常是手动生成的,这是一项耗时的任务。每个新领域都需要不同的参考数据结构,需要每个领域的丰富专业知识来生成所需的广义词语。用于不同领域的预制参考数据结构可能需要与数据集一起提供,这增加了数据大小。

此外,还需要十分了解关于词分类以及词和短语的语义含义。为文本数据生成预先存在的参考数据结构的一个重大挑战是对具有多个上下文相关含义的词进行分组。

因此,需要一种改进的K匿名参考数据结构生成方法和系统。

发明内容

在各种示例中,在至少一个方面中,本发明描述了用于为基于文本的数据自动生成K匿名参考数据结构的方法。所公开的方法可以利用机器学习技术生成矢量空间,所述矢量空间可用于将输入文本数据转换为数值,并自动聚类类似的数据记录,并生成参考数据结构,该参考数据结构具有针对每个簇的有意义的标识符,其中,所述标识符可以在语义上表示簇。

在另一方面中,本文公开的方法可以自动生成K匿名参考数据结构,并不限于英语,并且可以能够支持多种语言的基于文本的数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为云计算技术有限公司,未经华为云计算技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202080102413.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top