[发明专利]一种基于图谱模型的话题探测系统有效

专利信息
申请号: 201410326508.0 申请日: 2014-07-10
公开(公告)号: CN104050302B 公开(公告)日: 2017-05-24
发明(设计)人: 林欣;赵昂;杨静;贺樑 申请(专利权)人: 华东师范大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 上海蓝迪专利商标事务所(普通合伙)31215 代理人: 徐筱梅,张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 图谱 模型 话题 探测 系统
【说明书】:

技术领域

发明涉及信息抽取、浅语义分析、特征空间降维、命名实体识别、依存句法解析、聚类算法、无向图模型等技术领域,具体地说是一种基于利用实体词和句法信息的图谱模型去探测离散文本集合中隐含话题的话题探测系统。

背景技术

浅语义分析在自然语言处理领域中有着重要应用,在判断文档的相关性时需要考虑文档的隐含语义,如何发现离散文档中相似的概念或话题是文本挖掘(Text Mining)研究中的热点问题。作为浅语义分析的重要技术之一,话题模型是其中一种比较有效的模型,并在机器学习其他领域中也有着重要应用。例如,对于相对宽泛的话题“国际政治”可细分为多个相似的子话题:中东局势、朝鲜半岛核问题,美俄关系等等,这涉及到话题的粒度问题,在发现这些主题时,表达这些主题的词汇集合可能包括:冲突、死亡、爆炸、谈判、对话、协商、武装、领导人等等。

传统的潜语义分析(LSA)通过对矢量语义(向量空间模型)进行奇异值分解把高维词汇空间映射到低维的浅语义空间,文档的相似性在这个空间内进行比较,LSA的缺点在于缺少统计基础。近年来,基于概率浅语义分析模型PLSA而改进的更一般化的LDA成为主流方法,这些方法基于词汇的共现而建立统计模型。然而从语义的角度思考,这些方法没用考虑词汇特别是实体词本身携带的语义信息和词汇所在句子上下文存在的依存信息。

发明内容

本发明的目的是针对现有技术的不足而提供的一种基于图谱模型的话题探测系统,该系统基于实体和词对所在共现句中存在的句法依存关系来对词语的相关度进行度量得到词汇之间的相关度并构造词汇相关图谱模型,该图谱模型由相关度邻接矩阵存储表示,随后对得到的邻接矩阵进行聚类,得到话题探测的初步结果,再进行重要性排序之后取top-N,得到了表示每个话题的最终词汇列表。

实现本发明目的的具体技术方案是:

一种基于图谱模型的话题探测系统,特点是该系统包括预处理模块、图谱结构构造模块和子图探测模块,其中:

预处理模块:对语料库的分句、分词、命名实体识别和依存句法解析的预处理;

图谱结构构造模块:用于构造表示原型的图谱结构,图谱结构为一个无向图,其顶点为语料库的词项,其边缘为词对之间的相关度,根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值,构造以实体词为图谱中心即话题中心的无向图;其中,词对之间的相关度定义如下:

根据词对(vi,vj)是否有实体词和词对之间是否存在依存关系,计算词对的依存相关度和自然距离相关度:

1)如果词对(vi,vj)存在依存关系,则其依存相关度值为:

其中maxLen为常数,代表最大句子长度,dis是词对在句子中的间隔距离,λ是平滑参数;当词对(vi,vj)中至少有一个是实体词,λ=λ1;或者λ=λ2,vi,vj都不是实体词;其中λ1,λ2满足条件0<λ21<1,e为自然对数底数常数,λ12为阻尼系数;

2)当词对不存在依存关系,定义词对的自然距离相关度如下:

其中dis是词对在句子中的间隔距离;

对相同词对多次出现,则对其求和,作为图谱中词对(vi,vj)的最终相关度:

其中

式中表示词对在语料中共现的次数,θ为依存相关度和自然距离相关度的权重设置参数,N表示语料库中词汇集合的大小;

子图探测模块:探测图谱中相似的结点,并将相似的结点聚到相同的簇中,得到话题探测结果;具体包括:

1)对图谱结构进行子图划分,采用谱聚类算法(Spectral Clustering Algorithm)进行子图探测、划分,得到每个簇的词列表;

2)得到词列表后,根据词所在行向量的最终相关度值求和作为该词的权值,再进行排序,取top-M作为话题探测结果,M为正整数;其中,词vi的权值定义为

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410326508.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top