[发明专利]一种基于可解释模型的文本歧视性样本检测生成系统与方法在审
申请号: | 202111584810.2 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114238661A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 范铭;魏闻英;刘烃;晋武侠;魏佳利;陶俊杰 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F16/33;G06N3/12 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 安彦彦 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 可解释 模型 文本 歧视 样本 检测 生成 系统 方法 | ||
本发明公开了一种基于可解释模型的文本歧视性样本检测生成系统与方法,该方法分三步对文本分类集中包含潜在的歧视性的种子样本进行定位,并检测和生成大量生成歧视性样本:首先通过知识图谱构建给定敏感特征集中所有敏感特征的对应词库和扰动词库;其次,从文本数据集中随机选择一部分样本通过可解释模型得到其Top‑k的重要特征,通过匹配敏感词库选择种子样本;最后通过遗传算法从种子样本中检测出歧视性样本,并生成大量的歧视性样本来重新训练模型,消除模型的歧视性。
技术领域
本发明属于机器学习的可解释性技术和自然语言领域,涉及一种基于可解释模型的文本歧视性样本检测生成系统与方法。
背景技术
随着人工智能的发展,机器学习方法在解决各种问题中展现了巨大的优势,然而最新的研究发现,机器学习算法会在一些特定的敏感特征上产生歧视性,例如性别,人种等等。一旦将这些带有歧视的模型应用于有重大社会影响力的决策中,则会产生不可挽回的严重后果,因此检测和消除模型的歧视性对软件安全来说至关重要。
为了检测应用于关键领域的机器学习模型是否存在歧视性,国内外的研究人员针对分类数据集上模型的歧视性进行了大量研究,提出了Aequitas,SG,ADF等多种测试生成方法,主要通过随机生成,梯度下降等方法,或检测效率较低,或要求提供模型结构。其次,现有针对文本数据集的公平性检测相关研究较少,目前还没有一种通用的模型无关的检测方法,因此研究针对文本的通用公平性检测及歧视性样本生成方法是一个亟待解决的问题。
总体来说,现有的模型公平性检测方法主要存在以下问题:
1)检测效率低,随机测试的方法没有目标导向,造成大量冗余的重复测试样本被生成,导致检测效率低下;
2)目前通常是针对特定的分类器设计,通过读取梯度信息来确定搜索方向,需要获取模型训练的参数,有较强的权限限制;
3)目前研究仅针对分类数据集,但文本数据集的特征空间远大于分类数据集,检测手段更复杂,但缺乏针对文本分类的检测方法。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种基于可解释模型的文本歧视性样本检测生成系统与方法,以解决现有技术中检测效率低下,缺少模型无关的通用公平性检测方法以及缺少文本分类检测方法的问题。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于可解释模型的文本歧视性样本检测生成方法,包括以下步骤:
步骤1,已知文本数据集D,确定针对D的待检测敏感属性集A,根据知识图谱H构造A中所有敏感属性的对应词库W1以及变异词库W2;将文本数据集D中每一条文本x转化为词向量,建立词向量和对应单词的查询字典,所述对应单词属于文本x;
步骤2,任意选取文本数据集D中的一个子集D1,将D1中的每一条文本x转化为词向量z,将词向量z输入待检测分类器M中获得x的预测标签p;通过词向量z、待检测分类器M和预测标签p输入可解释模型中,获得文本x的重要程度排名大于k的top-k单词,所述k为设置阈值;
将文本x中的top-k单词通过知识图谱H进行词性查询,获得词性返回结果,将词性返回结果与对应词库W1匹配,若匹配成功,则将文本x视为一个种子样本;遍历子集D1中的每一条样本,得到种子样本集S;
步骤3,设定种子样本集S中的每一个文本x为原始文本xs,对每一个原始文本xs复制N个相同样本,获得搜索群体P0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111584810.2/2.html,转载请声明来源钻瓜专利网。