[发明专利]一种从文本语料中提取持续性热点短语的方法、装置及存储介质有效
申请号: | 202110079692.3 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112966505B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 叶东;孙兆伟;李晖;赵翰墨;高祥博;王璐 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/242;G06F16/33 |
代理公司: | 西安维英格知识产权代理事务所(普通合伙) 61253 | 代理人: | 李斌栋;归莹 |
地址: | 150006 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 语料 提取 持续性 热点 短语 方法 装置 存储 介质 | ||
本发明实施例公开了一种从文本语料中提取持续性热点短语的方法、装置及存储介质;该方法可以包括:将原始文本语料划分为多个与时间区间相对应的文本集合;基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。
技术领域
本发明实施例涉及信息挖掘技术领域,尤其涉及一种从文本语料中提取持续性热点短语的方法、装置及存储介质。
背景技术
随着数据迅速膨胀的背景下,大量的知识库构建任务使得快速从海量文本语料中提取有效信息成为了一个重要研究方向。以短语形式挖掘文本中频繁出现的连续词序列成为用户获取关键信息、进行文本集探索的有效方式之一。
目前,在连续时间区间下对频繁词序列挖掘过程中,由于用户对于数据内容无法完全掌握,通常需要多次迭代修改查询条件(即交互式查询)才能够对数据进行全面的了解。然而,相关频繁词序列挖掘方案大多面向挖掘任务,具有较高的时间复杂度,无法用于频繁更换查询条件的探索性查询方案,也无法快速获得查询反馈的需求。
发明内容
有鉴于此,本发明实施例期望提供一种从文本语料中提取持续性热点短语的方法、装置及存储介质;能够降低查询持续性热点短语的时间复杂度,快速寻找在连续时间区间下均作为热点存在的短语信息,满足探索性交互式查询的需求。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供了一种从文本语料中提取持续性热点短语的方法,所述方法包括:
将原始文本语料划分为多个与时间区间相对应的文本集合;
基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;
基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。
第二方面,本发明实施例提供了一种从文本语料中提取持续性热点短语的装置,所述装置包括:划分部分、构造部分和查询部分;其中,
所述划分部分,经配置为将原始文本语料划分为多个与时间区间相对应的文本集合;
所述构造部分,经配置为基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;
所述查询部分,经配置为基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。
第三方面,本发明实施例提供了一种计算设备,所述计算设备包括:通信接口,存储器和处理器;其中,
所述通信接口,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
所述存储器,用于存储能够在所述处理器上运行的计算机程序;
所述处理器,用于在运行所述计算机程序时,执行第一方面所述从文本语料中提取持续性热点短语的方法的步骤。
第四方面,本发明实施例提供了一种计算机存储介质,所述计算机可读介质存储有从文本语料中提取持续性热点短语的程序,所述从文本语料中提取持续性热点短语的程序被至少一个处理器执行时实现第一方面所述的从文本语料中提取持续性热点短语的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110079692.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种非布司他杂质的制备方法
- 下一篇:一种车辆通信方法