[发明专利]一种基于语义网络的文本短语权重计算方法有效
申请号: | 201410099977.3 | 申请日: | 2014-03-18 |
公开(公告)号: | CN103886062B | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 于慧敏;孙孟孟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于语义网络的文本短语权重计算方法。包括以下步骤首先,去除文本中的停止词,根据选词后的文本构建语义网络,将文本中的短语视作语义网络的一个节点;然后,使用随机游走的方法,计算在有限步内从一个节点随机游走到达另外一个节点的概率,得到所有节点之间的概率;最终,去除一个节点,重新计算所有节点之间的概率,并计算两者之差,这个差值便可以作为文本中此短语的权重。本发明使用了图论和马尔科夫链的理论,将文本转化为图并建模为马尔科夫链进行分析,利用了短语在文档中相对位置信息,提高了短语权重计算的准确性。本发明能够针对实际文档,有效的计算短语的权重,实现文档的降噪功能,提高信噪比。 | ||
搜索关键词: | 一种 基于 语义 网络 文本 短语 权重 计算方法 | ||
【主权项】:
一种基于语义网络的文本短语权重计算方法,其特征在于,包含以下步骤:1)去除文本中的停止词,根据选词后的文本构建语义网络,将文本中的短语视作语义网络的一个节点;所述的步骤1)具体为:(1)去除文本中的停止词,根据选词后的文本构建语义网络,将文本中的短语视作语义网络的一个节点;(2)两个短语之间的连接视作语义网络的边,边的权重可以使用下式计算:Edge(i,j)=Edge(j,i)=Σk=1N-11(thekthtermisi,andthe(k+1)thtermisj)+Σk=1N-11(thekthtermisj,andthe(k+1)thtermisi)]]>式中,Edge(i,j)表示节点i与节点j的边的权重,1(·)是一个指示函数,当满足条件时取1,不满足条件时取0,N为文本中短语个数,通过上式,便可得到边的权重矩阵Edge;(3)将得到的边的权重矩阵Edge按行进行归一化,式中,M是语义网络中节点个数,这样语义网络就变成了一个加权有向图,且每个节点出边权重之和为1,语义网络便可视作马尔科夫链的状态转移图,P就是马尔科夫链的状态转移矩阵;2)使用随机游走的方法,计算语义网络中在有限步长内从一个节点随机游走到另外一个节点的概率,并得到语义网络的转移矩阵π,语义网络的转移矩阵π是一个多步转移矩阵;3)去除某一节点之后重新计算新的语义网络对应的转移矩阵π';语义网络的转移矩阵π和重新计算后的语义网络的转移矩阵π'的两者之差Δπ中的元素之和便可以表示去除的节点在语义网络的连通性方面所起到的影响,即可表示这一节点所对应的短语在文本中的权重;4)重复步骤3)直到处理完文本中所有短语,便可以得到文本中所有短语的权重。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410099977.3/,转载请声明来源钻瓜专利网。