[发明专利]一种基于语义网络的文本短语权重计算方法有效
申请号: | 201410099977.3 | 申请日: | 2014-03-18 |
公开(公告)号: | CN103886062B | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 于慧敏;孙孟孟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 网络 文本 短语 权重 计算方法 | ||
技术领域
本发明属于文本分类领域,涉及一种对文本中短语权重进行计算的方法。
背景技术
文本分类是数据挖掘领域的重要分支之一,然而如何在向量空间中表示一个文本,即如何对文中的短语进行加权调整,制约着文本分类的精度。由于实际的文档具有很高的噪声,单纯的使用词频对文档进行描述会使部分信息淹没在噪声之中。一种优秀的短语加权方法必须能够有效提高文本的信噪比,实现文本的降噪功能。近年来,人们提出了许多短语权重构造函数,但主要基于向量空间法(Vector Space Model,VSM)。
向量空间法的基本思想是使用词袋模型表示文本,将语料库中的每个短语作为向量空间中的一维,将文本视作向量空间的一个矢量。其特点简单直观且处理速度较快,但此方法在理论和实际应用中有着很大的局限。
近年来,不断有学者提出新的短语权重构造方法。其中,基于语义网络的短语权重计算方法能够体现短语节点在语义网络的连通性上影响,并能够将此影响量化,作为短语在文中的权重。
基于语义网络的短语权重计算方法能够有效的滤除文本噪声,提高文本分类的准确性与鲁棒性。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于语义网络的文本短语权重计算方法。
基于语义网络的文本短语权重计算方法包含以下步骤:
1)去除文本中的停止词,根据选词后的文本构建语义网络,将文本中的短语视作语义网络的一个节点;
2)使用随机游走的方法,计算语义网络中在有限步长内从一个节点随机游走到另外一个节点的概率,并得到语义网络的转移矩阵π,语义网络的转移矩阵π是一个多步转移矩阵;
3)去除某一节点之后重新计算新的语义网络对应的转移矩阵π';语义网络的转移矩阵π和重新计算后的语义网络的转移矩阵π'的之差Δπ中的元素之和便可以表示去除的节点在语义网络的连通性方面所起到的影响,即可表示这一节点所对应的短语在文本中的权重;
4)重复步骤3)直到处理完文本中所有短语,便可以得到文本中所有短语的权重。
所述的步骤1)为:
(1)去除文本中的停止词,根据选词后的文本构建语义网络,将文本中的短语视作语义网络的一个节点;
(2)两个短语之间的连接视作语义网络的边,边的权重可以使用下式计算:
式中,Edge(i,j)表示节点i与节点j的边的权重,1(·)是一个指示函数,当满足条件时取1,不满足条件时取0,N为文本中短语个数,通过上式,便可得到边的权重矩阵Edge;
(3)将得到的边的权重矩阵Edge按行进行归一化,
式中,M是语义网络中节点个数,这样语义网络就变成了一个加权有向图,且每个节点出边权重之和为1,语义网络便可视作马尔科夫链的状态转移图,P就是马尔科夫链的状态转移矩阵。
所述的步骤2)为:
(1)计算从一个节点出发在有限步内能够到达另一个节点的概率:
式中,π(i,v)表示从节点i在有限步内能够到达节点v的概率,ε为在任何节点重新跳回节点i的概率,P是马尔科夫链的一步转移概率;
(2)语义网络的转移矩阵π可以通过矩阵表示为:
π=εE[E-(1-ε)P]-1
式中E表示单位矩阵,上标表示矩阵的逆或伪逆。
所述的步骤3)计算语义网络中去除的节点i在语义网络的连通性方面所起到的影响为:
(1)去除节点i的出边,即从节点i出发进行概率转移,只能转移到自身;
(2)计算新的语义网络对应的转移矩阵π';
(3)计算两个矩阵的差值Δπ,Δπ=π-π',然后将Δπ的第i行和第i列置零,节点i在语义网络连通性上的影响便可以表示为:
式中,influence(i)表示节点i对语义网络连通性的影响,即短语i在文本中的权重。
所述的步骤4)为:
(1)重复步骤3)得到每一个节点对网络连通性的影响;
(2)将influence归一化,便可以得到文本在短语上的概率分布,即每个短语在文本中的权重。
本发明的有益效果是:
1)提出了一种基于语义网络的文本短语权重计算方法,该方法使用图论和马尔科夫链的理论,计算短语对应节点在语义网络连通性上的影响,并将此影响量化,作为短语在文本中的权重。
2)本发明能够有效降低了文本噪声,提高文本信噪比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410099977.3/2.html,转载请声明来源钻瓜专利网。