[发明专利]基于KL距离相似性度量的研究热点演变行为检测方法有效
申请号: | 201811216206.2 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109408782B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 黄芳;杜春修;赵义健;张祖平;章成源 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 kl 距离 相似性 度量 研究 热点 演变 行为 检测 方法 | ||
本发明公开了一种基于KL距离相似性度量的研究热点演变行为检测方法,其将刊物主题性和刊物的时序性相结合,提出了时序刊物主题模型TS‑JTM,以实现学术刊物的时态热点抽取,在此基础上建立基于时间序列的主题快照刊物研究热点演变模型,同时,利用概率分布KL距离相似性度量方法,提出了度量相邻时刻主题快照中主题演变行为的检测方法,以实现对刊物中研究热点演变的细粒度分析。
技术领域
本发明属于文献主题分析检测技术领域,具体涉及一种基于KL距离相似性度量的研究热点演变行为检测方法。
背景技术
随着科学研究与探索的不断发展,学术领域的研究热点随之发生变化,由于学科之间的相互渗透和新技术的应用促进了学术研究热点随时间的变化而演变,在这个过程中有一些老的研究问题会消失,同时也会不断有新的研究问题产生,而有些研究问题会随时间产生裂变或与其他研究问题融合,这些行为导致了学科研究热点的演变。因此,分析学术领域的研究热点演变,把握研究热点演变轨迹,对于预测研究热点发展趋势是很有必要的。它不仅可以帮助学者了解到当前的热点研究问题,而且还可以辅助科研人员与管理者把握科学研究的发展规律。科研人员的研究成果与进展集中反映在其发表学术论文学术刊物中,这些学术刊物分门别类地收集了大量学术研究成果,由于刊物周期性出版,它本质上记录了本刊物所在的研究领域的发展历程,所以,通过对刊物主题抽取去发现其研究热点随时间的演变是十分有意义的。
在文献主题分析分析中,作者主题模型(Author-Topic-Model)是常用的主题聚类分析方法,ATM对文献的作者兴趣建模,可以分析作者的学术偏好[1]。作者主题模型是一个三层贝叶斯概率模型,包含词、主题、作者兴趣三层结构。该模型可以直接映射到在刊物主题模型中,即刊物以一定的概率选择某个主题,主题以一定的概率生成特征词。然而,主题随时间的演变是影响主题抽取的重要因素,作者主题模型没有考虑时间因素,将作者主题模型直接用于各个时间片的语料数据库进行主题抽取时,在每个时间片内都是独立模型参数,不具备时间依赖性,没有考虑到主题随时间变化的影响,增大了特征词在分配主题时的不确定性。Blei在LDA(Latent Dirichlet Allocation)模型的基础上提出了DTM模型[2],实现对时序主题的抽取,然而DTM模型是通过针对数据集的内容建模,并非针对刊物建模来得到文献数据集中各个刊物所包含的主题及其随时间的演变,是无法满足刊物主题研究的需求。
因此,现有技术中缺少一种有效的手段来解决基于刊物时序主题演变行为检测。
发明内容
本发明的目的是针对现有技术的缺陷提供一种基于KL距离相似性度量的研究热点演变行为检测方法,通过结合刊物的主题性和时序性提出了时序刊物主题模型TS-JTM(Time Sequence Journal Topic Model),并以此来对刊物进行时态主题抽取,再结合KL距离的主题相似性度量主题演变,实现主题延续、新生、分裂、融合、消亡演变行为的检测。
一种基于KL距离相似性度量的研究热点演变行为检测方法,包括如下步骤:
步骤1:获取刊物文献,并基于刊物文献的发表时间构建具有时间属性的特征词语料库;
其中,以刊物文献的发表时间划分时间片,所述特征词语料库由各个时间片上的数据集构成,每个时间片上的数据集由相匹配时间发表的刊物文献的文献特征向量构成;
式中,Ct为时间片t上的数据集,(wi,ji)为刊物文献i的文献特征向量,wi为刊物文献i的特征词集合,ji为刊物文献i所属的刊物,ci为特征词集合中的第i个特征词,n1为时间片t上刊物文献的数量,n2为刊物文献i上特征词的数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811216206.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于行政区划的寄递地址编码方法
- 下一篇:电子文档在线编辑方法及系统