[发明专利]一种面向实体解析任务的风险分析方法在审

专利信息
申请号: 201910773251.6 申请日: 2019-08-21
公开(公告)号: CN110516950A 公开(公告)日: 2019-11-29
发明(设计)人: 陈群;陈肇强;侯博议;王丽娟;罗雨晨;李战怀 申请(专利权)人: 西北工业大学
主分类号: G06Q10/06 分类号: G06Q10/06;G06K9/62
代理公司: 61204 西北工业大学专利中心 代理人: 刘新琼<国际申请>=<国际公布>=<进入
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明针对实体解析任务,通过决策树来生成作为风险特征的规则;对于每个风险特征,假设其匹配概率服从各自的正态分布,其中包含了三个可调参数,期望,方差和特征的重要度;给定任一记录对,其匹配概率的分布则是该记录对符合的所有风险特征所对应的正态分布的加权叠加;对于给定的记录对,得到其匹配概率的正态分布和机器标签后,采用风险值来评估机器标签的风险;风险特征的匹配概率的期望根据分类器训练数据集所提供的匹配频率统计提供,方差和特征的重要度权重则是在风险训练数据集上,采用学习排序技术和梯度下降优化方法来学习它们的最优值。风险模型训练完成后,输入任一记录对的机器标签,风险模型返回该标签的风险值。
搜索关键词: 匹配概率 正态分布 标签 风险模型 记录 重要度 方差 分类器训练 训练数据集 加权叠加 可调参数 排序技术 匹配频率 实体解析 决策树 数据集 期望 权重 返回 学习 评估 优化 统计
【主权项】:
1.一种面向实体解析任务的风险分析方法,其特征在于步骤如下:/n步骤1:将训练好的分类器作用在未标注数据集D上,获得预测的机器标签;其中D={d1,d2,……,dn},每一个di表示一个候选记录对<ri1,ri2>,如果ri1和ri2表示同一个现实世界的实体,则将di标注为“匹配”,否则,标注为“不匹配”;/n步骤2:根据具体的数据集,设计相应的属性相似度对比方法,假设为{h1(·,·),h2(·,·),h3(·,·),……},对于任意的一个hi,输入di中两个实体ri1和ri2的相对应的属性值,则hi输出这两个实体的属性相似度;/n步骤3:在分类器的训练数据DT上,基于步骤2中设定的属性相似度对比方法得到各个数据在不同属性上的相似度值,采用决策树技术,训练得到一个规则集F={f1,f2,……,fk};每一条规则都是由若干个条件以谓词连接词“与”组成,并推出一个“匹配”或者“不匹配”的结论;每一个条件则是由一个属性相似度对比方法和相应的阈值所声明,它们之前的关系是“>”或者“≤”;/n步骤4:对于每一个风险特征fi,假设其蕴含的匹配概率值服从一个期望为方差为的正态分布,并且该特征的重要度权重为wi;为表述方便,k个风险特征的匹配概率的期望用向量形式来表示,即同理,方差权重w=[w1,w2,……,wk]T;对于任意的一个数据di,其对应的特征向量为xi=[xi1,xi2,……,xik],其中,如果di满足第j个风险特征,则xii=1,否则,xij=0;对于分类器输出的类别概率的权重,不是用一个参数来表示,而是用一个重要度函数来表示,即/n /n其中,α和β是待优化参数,对于每一个分类器的预测概率值,fw(x)返回其相对应的权重;/n步骤5:根据分类器的训练数据DT,计算每一个的风险特征的匹配概率的期望;对于风险特征fi,假设训练数据DT中符合该特征的数据有个,其中,标签为“匹配”的数据有个,那么,该特征的匹配概率的期望可以估计为而风险特征的权重wi,和其匹配概率的分布的方差为待求参数;/n步骤6:假设记录对di的匹配概率同样服从正态分布然后,根据该记录对所对应的风险特征来估计其分布。具体地,其期望值为方差为其中,表示矩阵的哈达玛积,其操作是将两个向量中的对应元素相乘;简而言之,记录对的匹配概率的分布是由风险特征的匹配概率的分布的加权叠加来估计的;风险特征f1的分布和风险特征f2的分布以相等权重的方式叠加得到记录对d1的分布;/n步骤7:在获得一个记录对di的匹配概率分布和分类器预测的标签后,采用风险值来度量机器标签与真实标签不同的风险;记di所对应的匹配概率的累计分布函数的反函数为那么,在给定置信度水平为θ的条件下,当di的机器标签为“不匹配”时,其风险为/n /n当di的机器标签为“匹配”时,其风险为/n /n步骤8:假设已存在一个带有真实标签的风险模型训练数据DS,所述的DS与数据集D同分布,在DS上,采用学习排序技术来最优化风险模型中的待求参数,即风险特征的权重wi,和其匹配概率的分布的方差学习排序技术是为了使被错误分类的记录对的风险值能够大于被正确分类的记录对的风险值,给定两个记录对di和dj,不妨假设它们对应的被错误分类的风险值分别为γi和γj,并且,如果γi大于γj,那么di排在dj的前面;采用logistic函数将它们的风险值映射为di排在dj前面的后验概率/n /n而其目标概率为/n /n其中,如果记录对di被错误分类,那么,gi=1,否则,gi=0;根据所定义的记录对排序位置的后验概率和目标概率,在风险模型训练数据DS上,所定义的目标损失函数为交叉熵损失函数/n /n步骤9:采用梯度下降方法来寻找最优参数,使得步骤8中的交叉熵损失函数的值最小;/n步骤10:求出风险模型的未知参数后,对于数据集D上的每一个记录对,根据步骤7,可以求得其对应的机器标签的风险值。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910773251.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top