[发明专利]一种面向实体解析任务的风险分析方法在审
申请号: | 201910773251.6 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110516950A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 陈群;陈肇强;侯博议;王丽娟;罗雨晨;李战怀 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06K9/62 |
代理公司: | 61204 西北工业大学专利中心 | 代理人: | 刘新琼<国际申请>=<国际公布>=<进入 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配概率 正态分布 标签 风险模型 记录 重要度 方差 分类器训练 训练数据集 加权叠加 可调参数 排序技术 匹配频率 实体解析 决策树 数据集 期望 权重 返回 学习 评估 优化 统计 | ||
1.一种面向实体解析任务的风险分析方法,其特征在于步骤如下:
步骤1:将训练好的分类器作用在未标注数据集D上,获得预测的机器标签;其中D={d1,d2,……,dn},每一个di表示一个候选记录对<ri1,ri2>,如果ri1和ri2表示同一个现实世界的实体,则将di标注为“匹配”,否则,标注为“不匹配”;
步骤2:根据具体的数据集,设计相应的属性相似度对比方法,假设为{h1(·,·),h2(·,·),h3(·,·),……},对于任意的一个hi,输入di中两个实体ri1和ri2的相对应的属性值,则hi输出这两个实体的属性相似度;
步骤3:在分类器的训练数据DT上,基于步骤2中设定的属性相似度对比方法得到各个数据在不同属性上的相似度值,采用决策树技术,训练得到一个规则集F={f1,f2,……,fk};每一条规则都是由若干个条件以谓词连接词“与”组成,并推出一个“匹配”或者“不匹配”的结论;每一个条件则是由一个属性相似度对比方法和相应的阈值所声明,它们之前的关系是“>”或者“≤”;
步骤4:对于每一个风险特征fi,假设其蕴含的匹配概率值服从一个期望为方差为的正态分布,并且该特征的重要度权重为wi;为表述方便,k个风险特征的匹配概率的期望用向量形式来表示,即同理,方差权重w=[w1,w2,……,wk]T;对于任意的一个数据di,其对应的特征向量为xi=[xi1,xi2,……,xik],其中,如果di满足第j个风险特征,则xii=1,否则,xij=0;对于分类器输出的类别概率的权重,不是用一个参数来表示,而是用一个重要度函数来表示,即
其中,α和β是待优化参数,对于每一个分类器的预测概率值,fw(x)返回其相对应的权重;
步骤5:根据分类器的训练数据DT,计算每一个的风险特征的匹配概率的期望;对于风险特征fi,假设训练数据DT中符合该特征的数据有个,其中,标签为“匹配”的数据有个,那么,该特征的匹配概率的期望可以估计为而风险特征的权重wi,和其匹配概率的分布的方差为待求参数;
步骤6:假设记录对di的匹配概率同样服从正态分布然后,根据该记录对所对应的风险特征来估计其分布。具体地,其期望值为方差为其中,表示矩阵的哈达玛积,其操作是将两个向量中的对应元素相乘;简而言之,记录对的匹配概率的分布是由风险特征的匹配概率的分布的加权叠加来估计的;风险特征f1的分布和风险特征f2的分布以相等权重的方式叠加得到记录对d1的分布;
步骤7:在获得一个记录对di的匹配概率分布和分类器预测的标签后,采用风险值来度量机器标签与真实标签不同的风险;记di所对应的匹配概率的累计分布函数的反函数为那么,在给定置信度水平为θ的条件下,当di的机器标签为“不匹配”时,其风险为
当di的机器标签为“匹配”时,其风险为
步骤8:假设已存在一个带有真实标签的风险模型训练数据DS,所述的DS与数据集D同分布,在DS上,采用学习排序技术来最优化风险模型中的待求参数,即风险特征的权重wi,和其匹配概率的分布的方差学习排序技术是为了使被错误分类的记录对的风险值能够大于被正确分类的记录对的风险值,给定两个记录对di和dj,不妨假设它们对应的被错误分类的风险值分别为γi和γj,并且,如果γi大于γj,那么di排在dj的前面;采用logistic函数将它们的风险值映射为di排在dj前面的后验概率
而其目标概率为
其中,如果记录对di被错误分类,那么,gi=1,否则,gi=0;根据所定义的记录对排序位置的后验概率和目标概率,在风险模型训练数据DS上,所定义的目标损失函数为交叉熵损失函数
步骤9:采用梯度下降方法来寻找最优参数,使得步骤8中的交叉熵损失函数的值最小;
步骤10:求出风险模型的未知参数后,对于数据集D上的每一个记录对,根据步骤7,可以求得其对应的机器标签的风险值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910773251.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种企业共享用工平台
- 下一篇:一种动态时间间隔的综合能源系统调度方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理