[发明专利]一种基于随机森林的信息检索系统公平性量化方法在审

申请号：	202210921855.2	申请日：	2022-08-02
公开（公告）号：	CN115544205A	公开（公告）日：	2022-12-30
发明（设计）人：	郑海斌;谢欣怡;陈晋音	申请（专利权）人：	浙江工业大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/295
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	孙家丰
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于随机森林信息检索系统公平性量化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于随机森林算法的信息检索系统公平性量化方法，包括如下步骤：

1)对信息检索系统的数据集进行处理，生成量化集；信息检索系统的数据集由查询主题集、文档集和相关文档集构成，查询主题集中每一个主题对应一个相关文档集，文档集为所有相关文档的集合；量化集由查询主题集、相关特征集、特权群体特征集、非特权群体特征集构成；具体包括：

1.1)对于相关文档集进行实体提取，形成相关特征集：由人工设置需要查验公平性的实体特征，设其个数为t，而后运用命名实体识别模型将各查询主题所对应的每个相关文档中的特征值提取出来，对于每一主题每一相关文档，将相应的特征与特征值按照检索系统中的顺序存入其相关特征集中，从而形成了多维的相关特征集；

1.2)训练随机森林模型：

1.2.1)生成训练集：首先，随机地从查询主题集中选取N个查询主题，并从与查询主题对应的相关特征集中随机抽取1个特征，并将特征中的群体都分为特权群体和非特权群体，分别存入对应的特权群体特征集和非特权群体特征集中；

1.2.2)利用训练集，从训练集的查询主题中随机抽取1个，利用与该主题对应的特征及其特征值，构建可以依据特征值的等级和所占比例判断特征中的某一特征值是否为特权群体的决策树；

1.2.3)重复1.2.2)的步骤，直至训练集中所有的主题和特征都被抽取，由此便生成了大量可以依据特征值的等级和所占比例判断特征中的某一特征值是否为特权群体的决策树，从而构成了随机森林；

1.3)特权群体特征集和非特权群体特征集的形成：将每一主题集对应的相关特征集都送入训练好的随机森林模型中，将相关特征集中的每一特征中的特征值都分为特权群体和非特权群体，而后分别存入特权群体特征集和非特权群体特征集中，并保证它们的顺序和与主题的对应关系不变；

2)公平性量化：

2.1)求解主题比例公平性程度：

其中，k表示第k个查询主题，m表示第m个实体特征，B_k,m表示第k个查询主题的第m个特征的比例公平性程度，表示第k个查询主题的第m个特征所对应的特权群体总数，表示第k个查询主题的第m个特征所对应的非特权群体总数，表示第m个特征所对应的特权群体总数，表示第m个特征所对应的非特权群体总数；设定比例公平性程度的阈值为当时，说明该主题在该特征上比例公平；当时，说明该主题在该特征上比例不公平，且该特征中的特权群体在比例上存在歧视；当时，说明该主题在该特征上比例不公平，且该特征中的非特权群体在比例上存在歧视；

2.2)求解主题排序公平性程度：

其中，k表示第k个查询主题，m表示第m个实体特征，D_k,m表示第k个查询主题的第m个特征的排序公平性程度，表示第k个查询主题的第m个特征所对应的特权群体总数，表示第k个查询主题的第m个特征所对应的非特权群体总数，i表示当前的特权群体特征值是第k个查询主题的第m个特征所对应的所有特权群体中第i个被检索出来的，表示当前的特权群体特征值在第k个查询主题的第m个特征所对应的所有特征值中的排序等级，j表示当前的非特权群体特征值是第k个查询主题的第m个特征所对应的所有非特权群体中第j个被检索出来的，表示当前的非特权群体特征值在第k个查询主题的第m个特征所对应的所有群体中的排序等级；设定排序公平性程度的阈值为β，当D_k,m∈[-β,β]时，说明该主题在该特征上排序公平；当B_k,m-β时，说明该主题在该特征上排序不公平，且该特征的特权群体在排序上存在歧视；当B_k,mβ时，说明该主题在该特征上排序不公平，且该特征的非特权群体在排序上存在歧视；

2.3)至此完成了第k个查询主题第m个特征的比例公平性程度和排序公平性程度的计算，对于剩余的主题和特征，重复2.1)到2.2)的步骤，直到所有主题及对应的所有特征的比例公平性程度和排序公平性程度都计算完毕；

2.4)求解整个系统的公平性程度：

其中，k表示第k个查询主题，m表示第m个实体特征，n表示查询主题的总数，t表示特征的总数，B_k,m表示第k个查询主题的第m个特征的比例公平性程度，表示将所有主题及对应的所有特征的比例公平性程度的绝对值相加，D_k,m表示第k个查询主题的第m个特征的排序公平性程度，表示将所有主题及对应的所有特征的排序公平性程度相加，λ∈[0，1]是比例公平性程度和排序公平性程度的平衡调解参数，可用于调解两者对系统公平性程度的影响程度；F表示系统的公平性程度，F∈(0，1]；F越大则系统越公平，当F∈[0.6,1]时，此信息检索系统就满足了日常使用的公平性需求；F越小则系统越不公平，当F∈(0，0.4]时，此信息检索系统就被判断为不公平，需要后续的公平性缓解方法进行处理；当F∈(0.4，0.6)时，此信息检索系统存在偏见可疑。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210921855.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种实验室室门状态监测方法及系统
下一篇：一种针对人脸深度聚类的多层次去偏方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于随机森林的信息检索系统公平性量化方法在审

专利文献下载