[发明专利]基于联想网络的语义相关性计算方法有效
申请号: | 201510256490.6 | 申请日: | 2015-05-19 |
公开(公告)号: | CN104881400B | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 朱其立;张可阳 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海汉声知识产权代理有限公司31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于联想网络的语义相关性计算方法,包括步骤步骤1,共现词频统计步骤,步骤2,网络构建及参数学习步骤,步骤3,语义相关性计算步骤。本发明通过引入自由联想方法所收集的数据模拟人脑对于词对的联想概率度量,提高语义相关性计算准确性,并通过引入维基百科词对共现频率数据,保证了联想网络的大规模和非稀疏两个重要特性,从而实现任意词对和句对之间的语义相关性计算,而且通过基于中间结点计算间接联想概率和扩充词袋,进一步提高语义相关性计算准确性。 | ||
搜索关键词: | 基于 联想 网络 语义 相关性 计算方法 | ||
【主权项】:
一种基于联想网络的语义相关性计算方法,其特征在于,包括如下步骤:步骤1,共现词频统计步骤步骤1.1:解析维基百科数据库转储文件,对多种不同的词对共现方式统计词对共现频率,并统计词对中单个词的出现频率;步骤1.2:根据所述词对共现频率和词对中单个词的出现频率,对每种词对共现方式计算词对之间的联想概率;步骤2,网络构建及参数学习步骤构建有向加权图联想网络:在有向加权图联想网络中,每个词语作为一个结点,两个结点间存在双向边的条件是:当且仅当这两个结点所对应的两个词语之间在所述多种不同的词对共现方式中至少一种词对共现方式下的共现频率不为零;边上所带的权重用于度量人脑由出边一词联想到入边一词的概率,所述权重通过参数学习得到;其中,所述参数学习采用线性回归机器学习算法,具体为:以自由联想方法所收集的词语数据计算自由联想的条件概率,并将自由联想的条件概率作为参数学习训练数据的标注真值,以步骤1.2计算得到的词对之间的联想概率作为参数学习训练数据的学习特征,学习得到权重,从而将在所述多种不同的词对共现方式下词对之间的联想概率统一为模拟人脑的联想概率;步骤3,语义相关性计算步骤利用词对之间的联想概率、有向加权图联想网络,计算词对或句对之间的语义相关性;在步骤1中,对五种不同的词对共现方式统计词对共现频率,其中,这五种词对共现方式为:‑普通页面正文句内两词的共现;‑普通页面标题与正文内超链接词语的共现;‑普通页面标题与定义段内非超链接词语的共现;‑普通页面标题与非定义段内非超链接词语的共现;‑类别页面中类别词的共现;其中,所述普通页面是指词语条目所对应的页面,类别页面是指预设的词语分类所对应的页面。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510256490.6/,转载请声明来源钻瓜专利网。
- 上一篇:网页翻译方法和系统
- 下一篇:缩写词扩展方法和装置