[发明专利]一种基于MSVM‑WKNN算法的分类方法及其应用在审

申请号：	201710015034.1	申请日：	2017-01-09
公开（公告）号：	CN106815341A	公开（公告）日：	2017-06-09
发明（设计）人：	蔡磊;王忠林	申请（专利权）人：	东方网力科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京金智普华知识产权代理有限公司11401	代理人：	皋吉甫
地址：	100102 北京市朝阳区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 msvm wknn 算法分类方法及其应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于MSVM-WKNN算法的人物关系提取方法，其特征在于，所述人物关系提取方法将一种基于MSVM-WKNN算法的分类方法应用于人物关系分类提取，将候选人物关系集作为训练文本集，利用MSVM-WKNN算法对候选人物关系集进行训练构建人物关系分类提取模型，利用人物关系分类提取模型对未标记的分类语料库进行人物关系提取，获取人物关系分类提取结果；基于MSVM-WKNN算法的分类方法在分类过程中对属性赋于不同权重，基于MSVM-WKNN算法的人物关系提取方法显著提高人物关系分类、提取的精度。

2.如权利要求1所述一种基于MSVM-WKNN算法的人物关系提取方法，其特征在于，所述基于MSVM-WKNN算法的分类方法包括以下两个步骤：

(1)利用MSVM算法向量生成：采用One-vs-One多类支持向量机对候选人物关系集进行学习训练，构建出k(k-1)/2个二类分类器；

(2)利用WKNN算法类别划分：对多类支持向量机训练过程中产生的拒分向量集合中每个向量进行属性权重调整，用WKNN算法将属性权重调整后的向量划分到某个类别中完成分类。

3.如权利要求2所述一种基于MSVM-WKNN算法的人物关系提取方法，其特征在于，所述属性权重调整具体为：对各特征属性加权，特征属性i的权值为W_i，所述权值依据特征属性i对分类的贡献，特征属性i对分类的贡献越大其权值越大。

4.如权利要求3所述一种基于MSVM-WKNN算法的人物关系提取方法，其特征在于，特征属性i权值具体为，

$<mrow><msub><mi>W</mi><mi>i</mi></msub><mo>=</mo><mfrac><msub><mi>s</mi><mi>i</mi></msub><mrow><msubsup><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><msub><mi>S</mi><mi>j</mi></msub></mrow></mfrac><mo>;</mo></mrow>$

其中，S_i为特征属性i的灵敏度，

m为样本的属性特征维数；n为样本个数；

为将整个训练样本库作为前馈神经网络的训练样本，采用BP神经网络算法，对神经网络进行训练，直到收敛为止，得到一个神经网络分类器，神经网络分类器对训练样本库的样本h分类的预测精度值为

对特征属性i,将训练样本中所有样本的第i个特征属性的值均改为0，其他特征属性值不变，形成新的训练样本库B_i，然后在训练样本库B_i的基础上，重新训练神经网络分类器，此时神经网络分类器对训练样本库的样本h分类的预测精度值为

表示对于的相对误差的绝对值。

5.如权利要求3所述一种基于MSVM-WKNN算法的人物关系提取方法，其特征在于，用WKNN算法划分类别过程中利用加权的欧几里得距离来作为k近邻计算的依据；

加权的欧几里距离为

其中，X为拒分向量，X＝{x₁，x₂，...，x_m，x_a}，x_a为X类别值；

Y^C为第C类的样本向量，为Y^C类别值；

W_j为第j个属性的权值。

6.如权利要求2所述一种基于MSVM-WKNN算法的人物关系提取方法，其特征在于，所述KNN算法中采用以待分类的拒分向量为圆心，以待分类拒分向量与拒分向量集合中心向量的距离加上待分类拒分向量与最大的支持向量的距离之和为半径的圆作为k近邻计算的范围。

7.如权利要求1所述一种基于MSVM-WKNN算法的人物关系提取方法，其特征在于，所述候选人物关系集经过利用语义角色标注分析方法标注。