[发明专利]热点话题检测方法及装置有效
申请号: | 201811260532.3 | 申请日: | 2018-10-26 |
公开(公告)号: | CN109582783B | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 徐常胜;方全;李泳锡 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34;G06F16/36 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点话题 检测 方法 装置 | ||
本发明涉及计算机技术领域,具体涉及一种热点话题检测方法。本发明的热点话题检测方法包括:基于预设实体知识库提取目标文本的关键句作为目标文本的摘要;使用LSH算法计算摘要的文档指纹;基于KNN算法对文档指纹进行聚类分析以确定目标文本的话题类别。本发明的热点话题检测方法是基于实体知识库中的实体对目标文本的句子进行评估,根据评估结果提取目标文本关键句作为摘要,通过这种方式可以使得提取出的摘要能够与具体应用场景紧密结合的同时还能保留更多的话题信息,进而保证后续文档聚类的精度,实现高质量的话题检测功能。
技术领域
本发明涉及计算机技术领域,具体涉及一种热点话题检测方法及装置。
背景技术
随着互联网高速发展,在人们工作和生活中,网络已经成了最主要的信息来源,极大地满足了人们对最新信息获取的需求。然而,互联网上的信息增长太过迅速,已经出现了所谓的“信息大爆炸”。此时,对于用户来说,筛选整理各类信息会占用自己的大量时间,并且,由于互联网信息的“碎片化”现象严重,难以形成有效的知识体系,不利于信息的分析与监测。
针对上述问题,现阶段通常会通过热点话题检测方法的处理将碎片化的信息流组织成以话题为单元的文档集,这样一来,不仅有利于用户的分析理解,而且可以为进一步的精细化加工打下良好的基础。现有技术的热点话题检测方法一般从文档中直接提取文档特征,然后根据文档特征完成文档聚类,实现话题检测功能。这种方法的好处在于:计算简单,复杂度低,可以解决部分话题检测任务需求。但是,此类方法在文档特征提取过程中会出现话题关键句流失的情况,使得提取出的文档特征涵盖的话题信息较少且无法与具体的应用场景相结合,进而影响后续文档聚类的精度。
相应地,本领域需要一种新的热点话题检测方法及装置来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即现有的热点话题检测方法因提取的文档特征包含的话题信息较少且无法与具体的应用场景相结合,从而导致后续聚类精度不足的问题。本发明提供了一种热点话题检测方法,所述方法包括:基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要;使用LSH算法计算所述摘要的文档指纹;基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别;所述预设实体知识库是基于知识图谱结构构建的知识库。
在上述热点话题检测方法的优选技术方案中,“基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要”的具体步骤包括:对所述目标文本进行分割得到若干个句子;根据评分算法计算所述目标文本中每个句子的得分;将每个句子按照得分进行排序,选取排名靠前的设定数量的句子作为摘要。
在上述热点话题检测方法的优选技术方案中,“根据评分算法计算所述目标文本中每个句子的得分”的具体步骤包括:
按照下式计算句子的得分:
TE=α*fg+β*S(title,seqi)+θ*∑u∈U S(seqi,sequ)-γ*∑s∈S S(seqi,seqs)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811260532.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于用弱监督深度学习的文本聚类方法
- 下一篇:文本分类方法及装置