[发明专利]一种面向实体解析任务的风险分析方法在审

申请号：	201910773251.6	申请日：	2019-08-21
公开（公告）号：	CN110516950A	公开（公告）日：	2019-11-29
发明（设计）人：	陈群;陈肇强;侯博议;王丽娟;罗雨晨;李战怀	申请（专利权）人：	西北工业大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06K9/62
代理公司：	61204 西北工业大学专利中心	代理人：	刘新琼<国际申请>=<国际公布>=<进入
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明针对实体解析任务，通过决策树来生成作为风险特征的规则；对于每个风险特征，假设其匹配概率服从各自的正态分布，其中包含了三个可调参数，期望，方差和特征的重要度；给定任一记录对，其匹配概率的分布则是该记录对符合的所有风险特征所对应的正态分布的加权叠加；对于给定的记录对，得到其匹配概率的正态分布和机器标签后，采用风险值来评估机器标签的风险；风险特征的匹配概率的期望根据分类器训练数据集所提供的匹配频率统计提供，方差和特征的重要度权重则是在风险训练数据集上，采用学习排序技术和梯度下降优化方法来学习它们的最优值。风险模型训练完成后，输入任一记录对的机器标签，风险模型返回该标签的风险值。
搜索关键词：	匹配概率正态分布标签风险模型记录重要度方差分类器训练训练数据集加权叠加可调参数排序技术匹配频率实体解析决策树数据集期望权重返回学习评估优化统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向实体解析任务的风险分析方法，其特征在于步骤如下：/n步骤1：将训练好的分类器作用在未标注数据集D上，获得预测的机器标签；其中D＝{d₁,d₂,……,d_n}，每一个d_i表示一个候选记录对＜r_i1,r_i2＞，如果r_i1和r_i2表示同一个现实世界的实体，则将d_i标注为“匹配”，否则，标注为“不匹配”；/n步骤2：根据具体的数据集，设计相应的属性相似度对比方法，假设为{h₁(·,·),h₂(·,·),h₃(·,·),……},对于任意的一个h_i,输入d_i中两个实体r_i1和r_i2的相对应的属性值，则h_i输出这两个实体的属性相似度；/n步骤3：在分类器的训练数据D_T上，基于步骤2中设定的属性相似度对比方法得到各个数据在不同属性上的相似度值，采用决策树技术，训练得到一个规则集F＝{f₁,f₂,……,f_k}；每一条规则都是由若干个条件以谓词连接词“与”组成，并推出一个“匹配”或者“不匹配”的结论；每一个条件则是由一个属性相似度对比方法和相应的阈值所声明，它们之前的关系是“＞”或者“≤”；/n步骤4：对于每一个风险特征f_i，假设其蕴含的匹配概率值服从一个期望为方差为的正态分布，并且该特征的重要度权重为w_i；为表述方便，k个风险特征的匹配概率的期望用向量形式来表示，即同理，方差权重w＝[w₁,w₂,……,w_k]^T；对于任意的一个数据d_i，其对应的特征向量为x_i＝[x_i1,x_i2,……,x_ik]，其中，如果d_i满足第j个风险特征，则x_ii＝1，否则，x_ij＝0；对于分类器输出的类别概率的权重，不是用一个参数来表示，而是用一个重要度函数来表示，即/n /n其中，α和β是待优化参数，对于每一个分类器的预测概率值，f_w(x)返回其相对应的权重；/n步骤5：根据分类器的训练数据D_T，计算每一个的风险特征的匹配概率的期望；对于风险特征f_i，假设训练数据D_T中符合该特征的数据有个，其中，标签为“匹配”的数据有个，那么，该特征的匹配概率的期望可以估计为而风险特征的权重w_i，和其匹配概率的分布的方差为待求参数；/n步骤6：假设记录对d_i的匹配概率同样服从正态分布然后，根据该记录对所对应的风险特征来估计其分布。具体地，其期望值为方差为其中，表示矩阵的哈达玛积,其操作是将两个向量中的对应元素相乘；简而言之，记录对的匹配概率的分布是由风险特征的匹配概率的分布的加权叠加来估计的；风险特征f₁的分布和风险特征f₂的分布以相等权重的方式叠加得到记录对d₁的分布；/n步骤7：在获得一个记录对d_i的匹配概率分布和分类器预测的标签后，采用风险值来度量机器标签与真实标签不同的风险；记d_i所对应的匹配概率的累计分布函数的反函数为那么，在给定置信度水平为θ的条件下，当d_i的机器标签为“不匹配”时，其风险为/n /n当d_i的机器标签为“匹配”时，其风险为/n /n步骤8：假设已存在一个带有真实标签的风险模型训练数据D_S，所述的D_S与数据集D同分布，在D_S上，采用学习排序技术来最优化风险模型中的待求参数，即风险特征的权重w_i，和其匹配概率的分布的方差学习排序技术是为了使被错误分类的记录对的风险值能够大于被正确分类的记录对的风险值，给定两个记录对d_i和d_j，不妨假设它们对应的被错误分类的风险值分别为γ_i和γ_j，并且，如果γ_i大于γ_j，那么d_i排在d_j的前面；采用logistic函数将它们的风险值映射为d_i排在d_j前面的后验概率/n /n而其目标概率为/n /n其中，如果记录对d_i被错误分类，那么，g_i＝1，否则，g_i＝0；根据所定义的记录对排序位置的后验概率和目标概率，在风险模型训练数据D_S上，所定义的目标损失函数为交叉熵损失函数/n /n步骤9：采用梯度下降方法来寻找最优参数，使得步骤8中的交叉熵损失函数的值最小；/n步骤10：求出风险模型的未知参数后，对于数据集D上的每一个记录对，根据步骤7，可以求得其对应的机器标签的风险值。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910773251.6/，转载请声明来源钻瓜专利网。

上一篇：一种企业共享用工平台
下一篇：一种动态时间间隔的综合能源系统调度方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向实体解析任务的风险分析方法在审

专利文献下载