[发明专利]一种基于核函数的文档相似检测方法有效
申请号: | 201210105942.7 | 申请日: | 2012-04-11 |
公开(公告)号: | CN102651034A | 公开(公告)日: | 2012-08-29 |
发明(设计)人: | 王秀红;鞠时光 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 卢亚丽 |
地址: | 212013 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 函数 文档 相似 检测 方法 | ||
技术领域
本发明涉及到信息检索领域,具体说是将本发明构造的S_Wang核函数用于文档相似检测的方法。
背景技术
核方法的思想是将在低维空间中一个非线性可分的问题,向高维空间转化,即映射到高维空间,使其在高维空间中变得线性可分,然后在特征空间中使用线性学习机建立优化超平面,利用高维特征空间中的内积来对低维空间的问题进行分类,从而解决问题。而转化最关键的部分在于找到输入空间中的x到高维空间中的φ(x)的映射方法,如何找到这个映射φ没有系统的方法。事实上,该映射函数往往不易找到,且不一定能显式表达。这个办法带来的困难就是计算复杂度的增加,且直接在这个特征空间作内积计算会面临一个维数灾难问题。核函数的基本作用就是接受两个低维空间里的向量输入值x和z,能够计算出经过某个变换后在高维空间里的向量内积值,实现将低维空间的数据代入该函数之后即可算出高维空间中的内积,从而无需寻找那个从低维空间到高维空间的具体映射。核函数的应用很好地解决了计算复杂度和维数灾难问题。
关于核函数的描述如下;设x和z∈X,X属于R(n)空间,非线性函数Φ实现输入空间X到特征空间H(内积空间或Hilbert空间:H,<·,·>)的映射(Φ:X→H),其中H属于R(m),n<<m。根据核函数技术有:
k(x,z)=<φ(x),φ(z)> (1)
其中:<,>为内积,k(x,z)为核函数。
针对具体的问题,构造适合该问题的核函数是解决该领域具体非线性分类问题的关键所在,具有非常重要的意义。关于核函数的构造目前没有统一的方法。根据泛函的有关理论,只要一种核函数k满足Mercer条件,它就对应某一变换空间中的内积,满足Mercer条件的任意对称函数,都可以作为核函数。
文档相似检测本质上是计算两篇文档的相似程度。每一个文档均可表示成一个向量,文档相似检测问题就转化为计算两个输入向量的相似度的问题。两篇文档相似与不相似是一个在低维空间中非线性可分的问题。将该低维空间中线性不可分的问题映射到高维空间,通过映射函数在高维特征空间的内积来计算两个输入数据之间的距离(即相似性)。
现有的关于文本处理的核方法主要有将文本视为概念体集合(set of concepts)的核,如潜在语义核(Latent Semantic Kernel,简称为LSK)[Dristianini N,Shawe-Taylor J,Lodhi H.Latent semantic kernels[J].Journal of Intelligent Information Systems,2002,18(2-3):127-152.],考虑了词间的潜在语义关系,虽然相似检测的招回率很高,但检测的精准率很低,导致相似检测的综合表现不高。将文本视为词包或词袋(bag of words)的核,如点积或多项式核(dot product or polynomial kernels)等。词袋核基于词的独立性假设,相似检测的招回率不高;多项式核当阶数大于2时会出现不平衡特征项,且其相似计算的精准率和招回率均不高。Cauchy核来自于Cauchy分布(Basak,2008),具有形式
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210105942.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种野战医技保障方舱
- 下一篇:一种钢桁架安装和卸载的组装式可调节支撑结构