[发明专利]一种从文本语料中提取持续性热点短语的方法、装置及存储介质有效
申请号: | 202110079692.3 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112966505B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 叶东;孙兆伟;李晖;赵翰墨;高祥博;王璐 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/242;G06F16/33 |
代理公司: | 西安维英格知识产权代理事务所(普通合伙) 61253 | 代理人: | 李斌栋;归莹 |
地址: | 150006 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 语料 提取 持续性 热点 短语 方法 装置 存储 介质 | ||
1.一种从文本语料中提取持续性热点短语的方法,其特征在于,所述方法包括:
将原始文本语料划分为多个与时间区间相对应的文本集合;
基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;
基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语;
其中,所述基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树,包括:
针对每个文本集合,将每个纯文本数据串的结尾添加终止标记;其中,针对每个文本集合,去除所述文本集合内文本数据中的设定符号与停用词,并在所述停用词与标点位置进行切分,获得多条纯文本数据串;
创建每个文本集合的初始频率树;其中,所述初始频率树只包括根节点,所述根节点的频率和子节点的指针均为空;
针对每个文本集合,采用乌科宁Ukkonen算法将每个纯文本数据串的文本后缀插入至所述初始频率树,获得每个文本集合对应的后缀树;
对所述后缀树进行深度递归遍历,当遍历到叶子节点时,将所述叶子节点的频率值置1,并且将所述后缀树中除叶子节点以外的每个其他节点的频率值确定为所述每个其他节点的直接孩子节点的频率值之和,以获得每个文本集合对应的频率后缀树。
2.根据权利要求1所述的方法,其特征在于,所述将原始文本语料划分为多个与时间区间相对应的文本集合,包括:
将形成所述原始文本语料的时间段按照时间顺序以及设定的最小单位时间区间划分获得多个顺序的时间区间;
根据所述原始文本语料中的文本出现时间以及所述时间区间,将所述原始文本语料中的文本存储于各时间区间对应的文本集合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每个文本集合对应的频率后缀树,从根节点进行广度遍历,并将每个节点对应的节点标识、孩子节点数量、频率值以及与父节点连接边记录的文本数据串进行输出,以形成每个频率后缀树的序列化文件。
4.根据权利要求3所述的方法,其特征在于,所述基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语,包括:
针对所述热点持续时间区间中的首个时间区间,将所述首个时间区间对应的频率后缀树的序列化文件还原为所述首个时间区间对应的频率后缀树;
从根节点出发中序遍历所述首个时间区间对应的频率后缀树,判定当前遍历节点的频率值是否不小于所述最小出现频率阈值:若是,则继续遍历所述当前遍历节点的下一级节点,直至被遍历节点的频率值小于所述最小出现频率阈值;
若当前遍历节点的频率值不小于所述最小出现频率阈值且所述当前遍历节点的所有孩子节点的频率值均小于所述最小出现频率阈值,将由所述根节点至所述当前遍历节点的路径边所记录的单词序列确定为所述首个时间区间内的候选热点短语;
针对所述热点持续时间区间中除所述首个时间区间之外的每个其他时间区间,将所述每个其他时间区间对应的频率后缀树的序列化文件还原为所述每个其他时间区间对应的频率后缀树;
针对所述热点持续时间区间中除所述首个时间区间之外的每个其他时间区间对应的频率后缀树,利用所述每个其他时间区间的前一个时间区间对应的候选热点短语集合中的每一个候选热点短语进行查询。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收查询指令;其中,所述查询指令至少包括希望查询的热点持续时间区间以及设定的最小出现频率阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110079692.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种非布司他杂质的制备方法
- 下一篇:一种车辆通信方法