[发明专利]基于KL距离相似性度量的研究热点演变行为检测方法有效
申请号: | 201811216206.2 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109408782B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 黄芳;杜春修;赵义健;张祖平;章成源 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 kl 距离 相似性 度量 研究 热点 演变 行为 检测 方法 | ||
1.一种基于KL距离相似性度量的研究热点演变行为检测方法,其特征在于:包括如下步骤:
步骤1:获取刊物文献,并基于刊物文献的发表时间构建具有时间属性的特征词语料库;
其中,以刊物文献的发表时间划分时间片,所述特征词语料库由各个时间片上的数据集构成,每个时间片上的数据集由相匹配时间发表的刊物文献的文献特征向量构成;
式中,Ct为时间片t上的数据集,(wi,ji)为刊物文献i的文献特征向量,wi为刊物文献i的特征词集合,ji为刊物文献i所属的刊物,ci为特征词集合中的第i个特征词,n1为时间片t上刊物文献的数量,n2为刊物文献i上特征词的数量;
其中,刊物文献的特征词是刊物文献的内容进行分词处理后得到的;
步骤2:基于刊物主题性与时序性构建时序刊物主题模型;
其中,所述时序刊物主题模型中每个时间片对应一个刊物主题模型,两个相邻时间片中下一时间片的刊物主题模型中刊物-主题分布θ的狄利克雷先验参数α、主题-特征词分布φ的狄利克雷先验参数β与上一时间片的两个狄利克雷先验参数α、β相关联;
步骤3:基于时序刊物主题模型中各个时间片上的刊物主题模型依次对相匹配时间片上的数据集进行主题提取得到每个时间片上的刊物-主题分布以及主题-特征词分布;
步骤4:获取待测刊物在各个时间片上主题以及主题-特征词分布,并基于主题-特征词分布计算同一待测刊物在相邻时间片上每任意两个主题之间的KL距离,再基于主题快照刊物研究热点演变模型得出待测刊物中各个主题的演变行为;
其中,所述主题快照刊物研究热点演变模型包括主题延续、新生、消亡、分裂和融合五类演变行为检测规律,每类演变行为检测规律均基于相邻时间片上主题的相似性以及演变行为特性鉴别,所述演变行为特性与相似性相关,两个主题的相似性采用KL距离度量。
2.根据权利要求1所述的方法,其特征在于:所述主题快照刊物研究热点演变模型包括如下检测规律:
a:时间片t上的主题i仅与相邻下一时间片t+1上一个主题的KL距离小于相似性阈值,且与相邻下一时间片t+1上剩余主题的KL距离均大于或等于相似性阈值时,主题i在下一时间片t+1中保持延续:
b:时间片t上的主题i与相邻上一时间片t-1上每个主题的KL距离均大于相似值阈值时,时间片t上的主题i为新生主题:
c:时间片t上的主题i与相邻下一时间片t+1上每个主题的KL距离均大于相似值阈值时,时间片t上的主题i在下一时间片t+1中没有延续,主题i消亡:
d:时间片t上的主题i与相邻下一时间片t+1上至少两个主题的KL距离均小于相似值阈值时,时间片t上的主题i在下一时间片t+1中分裂为多主题:
e:时间片t上的主题i与相邻上一时间片t-1上至少两个主题的KL距离均小于相似值阈值时,时间片t上的主题i由上一时间片t-1中多主题融合而来。
3.根据权利要求2所述的方法,其特征在于:所述主题快照刊物研究热点演变模型中各个检测规律的检测公式如下:
a规律中延续演变行为的检测公式为:
式中,分别为t时间片上主题i与t+1时间片上主题j、t时间片上主题i与t+1时间片上主题k之间的KL距离,分别为t时间片上主题i、t+1时间片上主题j、t+1时间片上主题k的主题-特征词分布,Tt+1为t+1时间片上主题集合,threshold_A为相似性阈值;
b规律中新生主题演变行为的检测公式为:
式中,为t-1时间片上主题j与t时间片上主题i之间的KL距离,Tt-1为t-1时间片上主题集合;
c规律中消亡演变行为的检测公式为:
d规律中分裂演变行为的检测公式为:
e规律中融合演变行为的检测公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811216206.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于行政区划的寄递地址编码方法
- 下一篇:电子文档在线编辑方法及系统