[发明专利]一种基于MSVM‑WKNN算法的分类方法及其应用在审
申请号: | 201710015034.1 | 申请日: | 2017-01-09 |
公开(公告)号: | CN106815341A | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | 蔡磊;王忠林 | 申请(专利权)人: | 东方网力科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京金智普华知识产权代理有限公司11401 | 代理人: | 皋吉甫 |
地址: | 100102 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 msvm wknn 算法 分类 方法 及其 应用 | ||
技术领域
本发明主要属于信息分类领域,具体涉及一种基于MSVM-WKNN算法分类的方法及其在人物关系分类中的应用。
背景技术
随着互联网技术的快速发展,信息资源已经日积月累,所包含的人物关系是一种有重要价值的信息,它在情报分析、网络舆情监控、社会网络分析等领域都有着十分重要的应用。当需要对人物的社会关系进行分析和挖掘时,人物关系的提取是首要解决的问题。因此,在面对大规模的文本信息下提高人物关系提取的精度,从中准确的挖掘出有价值的信息,是现有技术中亟待解决的问题。
现有技术中有利用改进的MSVM-KNN算法来对人物关系进行分类提取的,多类支持向量机算法(MSVM)和KNN算法相结合所形成的一种MSVM-KNN分类算法对人物关系进行分类提取(简称,MSVM-KNN算法)。MSVM-KNN算法在最近邻分类时对每个属性指定相同的权重(即,W=1),但事实上,不同的特征属性其重要性是不一样的,即使两个样本中相同的属性个数多,但如果这些特征属性并不重要,那么这两个样本的相似度并不高,对每个属性指定相同的权重影响分类准确率。
发明内容
基于上述问题,本发明提供了一种基于MSVM-WKNN算法分类的方法,该方法基于MSVM-WKNN算法,在对拒分向量分类是调整了各属性的权值,提高了分类的精度。同时提供了该方法在人物关系分类中的应用。
本发明是通过以下技术方案实现的:
一种基于MSVM-WKNN算法的人物关系提取方法,将一种基于MSVM-WKNN算法的分类方法用于人物关系分类提取,将候选人物关系集作为所述训练文本集,利用MSVM-WKNN算法对候选人物关系集进行训练构建人物关系分类提取模型,利用人物关系分类提取模型对未标记的分类语料库进行人物关系提取,获取人物关系分类提取结果,基于MSVM-WKNN算法的分类方法在分类过程中对属性赋于不同权重,基于MSVM-WKNN算法的人物关系提取方法显著提高人物关系分类、提取的精度。这种人物关系提取方法可用于对新闻网页、文本等中提及的人物间的关系的提取。
进一步地,所述基于MSVM-WKNN算法的分类方法包括以下两个步骤:
(1)利用MSVM算法向量生成:采用One-vs-One多类支持向量机对训练文本集进行学习训练,构建出k(k-1)/2个二类分类器;
(2)利用WKNN算法类别划分:对多类支持向量机训练过程中产生的拒分向量集合中每个向量进行属性权重调整,用WKNN算法将属性权重调整后的向量划分到某个类别中完成分类。
进一步地,所述属性权重调整具体为:对各特征属性加权,特征属性i的权值为Wi,所述权值依据特征属性i对分类的贡献,特征属性i对分类的贡献越大其权值越大。
进一步地,特征属性i权值具体为,
其中,Si为特征属性i的灵敏度,
m为样本的属性特征维数;n为样本个数;
为将整个训练样本库作为前馈神经网络的训练样本,采用BP神经网络算法,对神经网络进行训练,直到收敛为止,得到一个神经网络分类器,神经网络分类器对训练样本库的样本h分类的预测精度值为
对特征属性i,将训练样本中所有样本的第i个特征属性的值均改为0,其他特征属性值不变,形成新的训练样本库Bi,然后在训练样本库Bi的基础上,重新训练神经网络分类器,此时神经网络分类器对训练样本库的样本h分类的预测精度值为
表示对于的相对误差的绝对值。
进一步地,用WKNN算法划分类别过程中利用加权的欧几里得距离来作为k近邻计算的依据;
加权的欧几里距离为
其中,X为拒分向量,X={x1,x2,…,xm,xa}xa为X类别值;
YC为第C类的样本向量,为YC类别值;
Wj为第j个属性的权值。
进一步地,所述KNN算法中采用以待分类的拒分向量为圆心,以待分类拒分向量与拒分向量集合中心向量的距离加上待分类拒分向量与最大的支持向量的距离之和为半径的圆作为k近邻计算的范围。
进一步地,所述候选人物关系集经过利用语义角色标注分析方法标注。
进一步地,所述候选人物关系集通过以下步骤获得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东方网力科技股份有限公司,未经东方网力科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710015034.1/2.html,转载请声明来源钻瓜专利网。