[发明专利]话题处理方法及装置有效
申请号: | 201510921239.7 | 申请日: | 2015-12-11 |
公开(公告)号: | CN106874292B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 祁国晟;徐文斌 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 处理 方法 装置 | ||
本发明公开了一种话题处理方法及装置。其中,该方法包括:获取用于描述话题的新增文本;检测新增文本所描述的话题是否是已有话题;在检测结果为新增文本所描述的话题不是已有话题的情况下,确定新增文本所描述的话题为新增话题。本发明解决了相关技术中只能发现已有话题,无法发现新话题的技术问题。
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种话题处理方法及装置。
背景技术
话题检测与跟踪(Topic DetectionTracing)技术是自然语言处理与信息检索领域实用性非常高的技术,也是在大数据背景下有效地发现和提取有用信息实用技术,意在发现和处理文本中出现的热门话题或事件。通常情况下,热门话题或报道的发现和跟踪技术是针对特定领域或者特定事件,发现并跟踪话题后续进展情况的一项技术。
目前,国内外的热门话题检测技术主要侧重于从各类新闻报道中发现、过滤和跟踪话题,执行过程如下:1、文本获取,即上网收集各类媒体的新闻报道;2、文本向量化,即将收集到的原始文本进行向量化处理,形成向量化的文本;3、文本聚类,即将向量化的文本进行聚类分析,并将出现频率高的词语或者处在聚类中心上的文本作为一个话题;4、在特定的时间段内,重复上述1、2、3步的操作,并使用热度模型对第3步得到的话题进行排序,并输出前top-n个话题,该执行过程虽然能够实现话题发现和跟踪功能,但是存在如下缺陷:(1)线下处理,不能实时的发现与跟踪新话题,进而无法及时有效地了解新话题事件;(2)信源单一,全部信息都来源于新闻报道,不能有效利用微博,论坛等其他资源;(3)不能自适应地发现文本中出现的新话题,现有的使用指定话题和聚类技术,发现并跟踪一系列文本中的话题,无法适用于突然出现的话题和发展演变出来的话题;(4)文本聚类方法是粗粒度处理方法,不能充分表示一个话题的重要元素,使得文本中有效信息的利用率不足,会使后期出现的话题出现类中心偏移。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种话题处理方法及装置,以至少解决相关技术中只能发现已有话题,无法发现新话题的技术问题。
根据本发明实施例的一个方面,提供了一种话题处理方法,包括:获取用于描述话题的新增文本;检测上述新增文本所描述的话题是否是已有话题;在检测结果为上述新增文本所描述的话题不是上述已有话题的情况下,确定上述新增文本所描述的话题为新增话题。
进一步地,获取用于描述话题的新增文本包括:线上获取上述用于描述话题的新增文本。
进一步地,获取用于描述话题的新增文本包括:从多种信源中获取上述用于描述话题的新增文本。
进一步地,在确定上述新增文本所描述的话题为新增话题之后,上述方法还包括:将上述新增话题添加到上述已有话题中;或者先将上述用于描述话题的新增文本存储在新增话题文本队列中,在上述新增话题文本队列中的文本数量达到预设数值和/或程序执行时间达到预设时长后,再从上述新增话题文本队列中提取出相应的新增话题,并将提取出来的新增话题添加到上述已有话题中。
进一步地,在从上述新增话题文本队列中提取出相应的新增话题之后,且将提取出来的新增话题添加到上述已有话题中之前,上述方法还包括:从提取出来的新增话题中过滤掉噪声话题。
进一步地,在将上述新增话题添加到上述已有话题中之后,上述方法还包括:从添加了上述新增话题的已有话题中找出热门话题,其中,上述热门话题为在添加了上述新增话题的已有话题中排名达到指定阈值的话题;输出上述热门话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510921239.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:垂直树穴排水系统
- 下一篇:浮体式鱼塘自动破冰除冰装置