[发明专利]基于KL距离相似性度量的研究热点演变行为检测方法有效
申请号: | 201811216206.2 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109408782B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 黄芳;杜春修;赵义健;张祖平;章成源 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于KL距离相似性度量的研究热点演变行为检测方法,其将刊物主题性和刊物的时序性相结合,提出了时序刊物主题模型TS‑JTM,以实现学术刊物的时态热点抽取,在此基础上建立基于时间序列的主题快照刊物研究热点演变模型,同时,利用概率分布KL距离相似性度量方法,提出了度量相邻时刻主题快照中主题演变行为的检测方法,以实现对刊物中研究热点演变的细粒度分析。 | ||
搜索关键词: | 基于 kl 距离 相似性 度量 研究 热点 演变 行为 检测 方法 | ||
【主权项】:
1.一种基于KL距离相似性度量的研究热点演变行为检测方法,其特征在于:包括如下步骤:步骤1:获取刊物文献,并基于刊物文献的发表时间构建具有时间属性的主题词语料库;其中,以刊物文献的发表时间划分时间片,所述主题词语料库由各个时间片上的数据集构成,每个时间片上的数据集由相匹配时间发表的刊物文献的文献特征向量构成;
式中,Ct为时间片t上的数据集,(wi,ji)为刊物文献i的文献特征向量,wi为刊物文献i的特征词集合,ji为刊物文献i所属的刊物,ci为特征词集合中的第i个特征词,n1为时间片t上刊物文献的数量,n2为刊物文献i上特征词的数量;其中,刊物文献的特征词是刊物文献的内容进行分词处理后得到的;步骤2:基于刊物主题性与时序性构建时序刊物主题模型;其中,所述时序刊物主题模型中每个时间片对应一个刊物主题模型,两个相邻时间片中下一时间片的刊物主题模型中刊物‑主题分布θ的狄利克雷先验参数α、主题‑词分布φ的狄利克雷先验参数β与上一时间片的两个狄利克雷先验参数α、β相关联;步骤3:基于时序刊物主题模型中各个时间片上的刊物主题模型依次对相匹配时间片上的数据集进行主题提取得到每个时间片上的刊物‑主题分布以及主题‑词分布;步骤4:获取待测刊物在各个时间片上主题以及主题‑词分布,并基于主题‑词分布计算同一待测刊物在相邻时间片上每任意两个主题之间的KL距离,再基于主题快照刊物研究热点演变模型得出待测刊物中各个主题的演变行为;其中,所述主题快照刊物研究热点演变模型包括主题延续、新生、消亡、分裂和融合五类演变行为检测规律,每类演变行为检测规律均基于相邻时间片上主题的相似性以及演变行为特性鉴别,所述演变行为特性与相似性相关,两个主题的相似性采用KL距离度量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811216206.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于行政区划的寄递地址编码方法
- 下一篇:电子文档在线编辑方法及系统