[发明专利]一种基于随机森林的信息检索系统公平性量化方法在审
申请号: | 202210921855.2 | 申请日: | 2022-08-02 |
公开(公告)号: | CN115544205A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 郑海斌;谢欣怡;陈晋音 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 孙家丰 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 信息 检索系统 公平性 量化 方法 | ||
基于随机森林算法的信息检索系统公平性量化方法,包括:1)对信息检索系统的数据集(由查询主题集、文档集和相关文档集构成)进行处理,生成量化集(由查询主题集、相关特征集、特权群体特征集、非特权群体特征集构成),包括:1.1)对于相关文档集进行实体提取,形成相关特征集;1.2)训练随机森林模型;1.3)特权群体特征集和非特权群体特征集的形成2)公平性量化,包括:2.1)求解主题比例公平性程度;2.2)求解主题排序公平性程度;2.3)重复2.1)到2.2)的步骤,直到所有主题及对应的所有特征的比例公平性程度和排序公平性程度都计算完毕;2.4)求解整个系统的公平性程度。
技术领域
本发明属于机器学习领域,提出了一种基于随机森林的信息检索 系统公平性量化方法。
背景技术
随着信息化社会的发展,信息数量变得越来越庞大,人们获取对 自己有用的信息也就变得越来越困难。由此,信息检索系统应运而生。 信息检索系统是根据特定的需求而建立起来的一种有关信息搜集、加 工、存储和检索的程序化系统,它具有存储、检索和报道职能,能够 使得特定的信息用户能够在特定的时间和地点、以特定的方式和方法 获得特定的信息,从而满足其信息需求。信息检索系统经历了手工、 自动化、计算机检索、计算机网络检索4个主要阶段,而现如今的信 息检索系统与机器学习相结合,变得更加智能化和自动化。
但是受机器学习自身本质和技术特征的影响,信息检索系统会产 生一定程度的公平违规,在基于种族、性别的主题检索上存在着不公 平,可能会对受保护群体表现出歧视行为,从而对个人和社会产生潜 在的负面影响。
这些不公平直接影响着社会和公众对信息检索系统的信任,影响 着社会的进步与发展。因此,为使信息检索系统在社会中可以更好地 发挥其作用,确保和提升其公平性是十分重要的。公平是指处理事情 合情合理,不偏袒任何一方。公平主要分为个体公平和群体公平。个 人公平是指个体在其特征上相似时,应该得到相似的模型预测。群体 公平性是指在由受保护属性定义的群体中,平均分类器行为应该是相 同的。受保护属性包括种族、肤色、国籍、性别、年龄和残疾等属性, 按照受保护属性可以将群体划分为特权群体和非特权群体。有特权群 体是指那些更有可能在机器学习的二元分类任务中获得有利标签的人。 非特权群体则是在机器学习的二元分类任务中获得不利标签和偏见的 人。
为了消除信息检索系统中存在的偏见,提高公平性,进行信息检 索系统的公平性测试是首要前提。但现有的公平性测试方法主要是通 过生成尽可能多的实例来实现违反公平行为的揭露,该种方法并不适 用于信息检索系统,并且缺乏可解释性,无法得知具体在哪些方面需 要对公平性进行改进以达到去除偏见的目的。由此,对信息检索系统 的公平程度进行量化描述也显得格外重要。而现有的有关信息检索系 统的评价指标多注重于其使用性能,如准确率、召回率等,而忽略了 公平性,使得公平性量化所可以使用的人工标记少。且信息检索系统 的高维度数据也使得公平性量化的难度增大。
发明内容
为了克服已有的公平性测试方法可解释性弱、对信息检索系统的 适应性差、在信息检索系统人工标记少的情况下准确率低、数据维度 高的情况下效率低下的不足,本发明提供了一种可解释信强、在信息 检索系统人工标记少的情况下依然保持较高的准确率、数据维度高的 情况下仍能有较高效率的信息检索系统公平性量化方法。
为了解决已有的公平性测试方法缺乏可解释性、对信息检索系统 的适应性差、信息检索系统人工标记少、数据维度高所引发的信息检 索系统公平性量化问题,本发明设计了一种基于随机森林的信息检索 系统公平性量化方法,即在只有少量的类别标签的情况下,通过将数 据输入随机森林中得到特权群体与非特权群体的分类,对两个群体在 比例和排序上的距离进行计算,从而得到信息检索系统的公平性量化, 以使信息检索系统的构建者能够在系统设计中考虑公平性。
本发明解决其技术问题所采用的技术方案是:
基于随机森林算法的信息检索系统公平性量化方法,包括如下步 骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210921855.2/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置