[发明专利]一种基于随机森林的信息检索系统公平性量化方法在审
申请号: | 202210921855.2 | 申请日: | 2022-08-02 |
公开(公告)号: | CN115544205A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 郑海斌;谢欣怡;陈晋音 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 孙家丰 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 信息 检索系统 公平性 量化 方法 | ||
1.基于随机森林算法的信息检索系统公平性量化方法,包括如下步骤:
1)对信息检索系统的数据集进行处理,生成量化集;信息检索系统的数据集由查询主题集、文档集和相关文档集构成,查询主题集中每一个主题对应一个相关文档集,文档集为所有相关文档的集合;量化集由查询主题集、相关特征集、特权群体特征集、非特权群体特征集构成;具体包括:
1.1)对于相关文档集进行实体提取,形成相关特征集:由人工设置需要查验公平性的实体特征,设其个数为t,而后运用命名实体识别模型将各查询主题所对应的每个相关文档中的特征值提取出来,对于每一主题每一相关文档,将相应的特征与特征值按照检索系统中的顺序存入其相关特征集中,从而形成了多维的相关特征集;
1.2)训练随机森林模型:
1.2.1)生成训练集:首先,随机地从查询主题集中选取N个查询主题,并从与查询主题对应的相关特征集中随机抽取1个特征,并将特征中的群体都分为特权群体和非特权群体,分别存入对应的特权群体特征集和非特权群体特征集中;
1.2.2)利用训练集,从训练集的查询主题中随机抽取1个,利用与该主题对应的特征及其特征值,构建可以依据特征值的等级和所占比例判断特征中的某一特征值是否为特权群体的决策树;
1.2.3)重复1.2.2)的步骤,直至训练集中所有的主题和特征都被抽取,由此便生成了大量可以依据特征值的等级和所占比例判断特征中的某一特征值是否为特权群体的决策树,从而构成了随机森林;
1.3)特权群体特征集和非特权群体特征集的形成:将每一主题集对应的相关特征集都送入训练好的随机森林模型中,将相关特征集中的每一特征中的特征值都分为特权群体和非特权群体,而后分别存入特权群体特征集和非特权群体特征集中,并保证它们的顺序和与主题的对应关系不变;
2)公平性量化:
2.1)求解主题比例公平性程度:
其中,k表示第k个查询主题,m表示第m个实体特征,Bk,m表示第k个查询主题的第m个特征的比例公平性程度,表示第k个查询主题的第m个特征所对应的特权群体总数,表示第k个查询主题的第m个特征所对应的非特权群体总数,表示第m个特征所对应的特权群体总数,表示第m个特征所对应的非特权群体总数;设定比例公平性程度的阈值为当时,说明该主题在该特征上比例公平;当时,说明该主题在该特征上比例不公平,且该特征中的特权群体在比例上存在歧视;当时,说明该主题在该特征上比例不公平,且该特征中的非特权群体在比例上存在歧视;
2.2)求解主题排序公平性程度:
其中,k表示第k个查询主题,m表示第m个实体特征,Dk,m表示第k个查询主题的第m个特征的排序公平性程度,表示第k个查询主题的第m个特征所对应的特权群体总数,表示第k个查询主题的第m个特征所对应的非特权群体总数,i表示当前的特权群体特征值是第k个查询主题的第m个特征所对应的所有特权群体中第i个被检索出来的,表示当前的特权群体特征值在第k个查询主题的第m个特征所对应的所有特征值中的排序等级,j表示当前的非特权群体特征值是第k个查询主题的第m个特征所对应的所有非特权群体中第j个被检索出来的,表示当前的非特权群体特征值在第k个查询主题的第m个特征所对应的所有群体中的排序等级;设定排序公平性程度的阈值为β,当Dk,m∈[-β,β]时,说明该主题在该特征上排序公平;当Bk,m-β时,说明该主题在该特征上排序不公平,且该特征的特权群体在排序上存在歧视;当Bk,mβ时,说明该主题在该特征上排序不公平,且该特征的非特权群体在排序上存在歧视;
2.3)至此完成了第k个查询主题第m个特征的比例公平性程度和排序公平性程度的计算,对于剩余的主题和特征,重复2.1)到2.2)的步骤,直到所有主题及对应的所有特征的比例公平性程度和排序公平性程度都计算完毕;
2.4)求解整个系统的公平性程度:
其中,k表示第k个查询主题,m表示第m个实体特征,n表示查询主题的总数,t表示特征的总数,Bk,m表示第k个查询主题的第m个特征的比例公平性程度,表示将所有主题及对应的所有特征的比例公平性程度的绝对值相加,Dk,m表示第k个查询主题的第m个特征的排序公平性程度,表示将所有主题及对应的所有特征的排序公平性程度相加,λ∈[0,1]是比例公平性程度和排序公平性程度的平衡调解参数,可用于调解两者对系统公平性程度的影响程度;F表示系统的公平性程度,F∈(0,1];F越大则系统越公平,当F∈[0.6,1]时,此信息检索系统就满足了日常使用的公平性需求;F越小则系统越不公平,当F∈(0,0.4]时,此信息检索系统就被判断为不公平,需要后续的公平性缓解方法进行处理;当F∈(0.4,0.6)时,此信息检索系统存在偏见可疑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210921855.2/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置