[发明专利]一种基于图谱模型的话题探测系统有效
申请号: | 201410326508.0 | 申请日: | 2014-07-10 |
公开(公告)号: | CN104050302B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 林欣;赵昂;杨静;贺樑 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙)31215 | 代理人: | 徐筱梅,张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于图谱模型的话题探测系统,该系统包括预处理模块、图谱结构构造模块和子图探测模块,预处理模块对语料文本集预处理;图谱结构构造模块用于构造表示原型的图谱结构,其顶点为语料文档的词项,其边缘为词对之间的相关度,根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值,构造以实体词为图谱中心的无向图;子图探测模块处理相关度图谱得到每个子图对应的词汇集合,再进行排序筛选得到每个子话题的最终结果。利用本发明,能够自动获得离散文本集合中隐含的话题,可应用于特征空间降维、相关度计算、语义扩展等自然语言处理相关领域。 | ||
搜索关键词: | 一种 基于 图谱 模型 话题 探测 系统 | ||
【主权项】:
一种基于图谱模型的话题探测系统,其特征在于该系统包括预处理模块、图谱结构构造模块和子图探测模块,其中:预处理模块:对语料库的分句、分词、命名实体识别和依存句法解析的预处理;图谱结构构造模块:用于构造表示原型的图谱结构,图谱结构为一个无向图,其顶点为语料库的词项,其边缘为词对之间的相关度,根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值,构造以实体词为图谱中心即话题中心的无向图;其中,词对之间的相关度定义如下:根据词对(vi,vj)是否有实体词和词对之间是否存在依存关系,计算词对的依存相关度和自然距离相关度:1)如果词对(vi,vj)存在依存关系,则其依存相关度值为:Er(vi,vj)=cos(π*1+dismaxLen)ln(e+dis)+λ]]>其中maxLen为常数,代表最大句子长度,dis是词对在句子中的间隔距离,λ是平滑参数;当词对(vi,vj)中至少有一个是实体词,λ=λ1;或者λ=λ2,vi,vj都不是实体词;其中λ1,λ2满足条件0<λ2<λ1<1,e为自然对数底数常数,λ1,λ2为阻尼系数;2)当词对不存在依存关系,定义词对的自然距离相关度如下:Nr(vi,vj)=11+dis]]>其中dis是词对在句子中的间隔距离;对相同词对多次出现,则对其求和,作为图谱中词对(vi,vj)的最终相关度:Wij=Σ1Nwij*ln(N1+cr(vi,vj))]]>其中wij=θ*Er(vi,vj)+(1-θ)*Nr(vi,vj)]]>式中表示词对在语料库中共现的次数,为依存相关度和自然距离相关度的权重设置参数,N表示语料库中词汇集合的大小;子图探测模块:探测图谱中相似的结点,并将相似的结点聚到相同的簇中,得到话题探测结果;具体包括:1)对图谱结构进行子图划分,采用谱聚类算法进行子图探测、划分,得到每个簇的词列表;2)得到词列表后,根据词所在行向量的最终相关度值求和作为该词的权值,再进行排序,取top‑M作为话题探测结果,M为正整数;其中,词vi的权值定义为
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410326508.0/,转载请声明来源钻瓜专利网。
- 上一篇:瓶
- 下一篇:金属板带剪切焊接一体机