[发明专利]一种高效的文本区间热词查询方法有效
申请号: | 201710059191.2 | 申请日: | 2017-01-23 |
公开(公告)号: | CN106874430B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 赵志洲;路畅;何震瀛;王晓阳;韩伟力 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明属于电子信息技术领域,具体为高效的文本区间热词查询方法。现有的热词提取算法一般面向挖掘任务,时间复杂度较高,难以直接应用于热词的在线查询处理。本发明方法包括两个阶段:利用时间序列划分和范围查询的思想,对原始文本数据 |
||
搜索关键词: | 一种 高效 文本 区间 查询 方法 | ||
【主权项】:
一种高效的文本区间热词查询方法,其特征在于,包括两个阶段:一、利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;二、数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围Rq=[m:n]以及需要提取的热词个数k,计算确定所需热词;其中,利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理的具体步骤为:(1)为原始文本数据构建数据结构首先,统计每个单位时间间隔内不同单词的出现次数,并为全部单位时间间隔建立索引,索引范围为[1:S],其中S表示文本数据D中单位时间间隔的数目;随后在每个单位时间间隔s内,为不同单词依次构建索引,索引范围为[1:ST],其中T表示文本数据D中不同单词的数目;最后为上述数据建立数据结构,它包括:单位时间间间隔si及其索引i,si中出现的单词tij,单词tij的索引j,单词出现的次数nij;假设单词tij在si上不出现时,它的计数为0;(2)为上述的数据结构构建完全二叉树,并对数据进行划分基于以上数据结构,对数据集构建概念上的完全二叉树,其中根节点是整数数组[1:S],每个子节点都是父节点的子数组,而叶子节点的长度为1,对一个节点[a:b],它的左子节点是[a:b]的左半部分,即右子节点是[a:b]的右半部份,即假设S是2的幂,则这棵树一共有lgS+1层,每层l有2l个节点,每个节点的长度是这颗二叉树是用来概念上划分查询范围对应的四元组,不需要实际存储;随后,对于上述二叉树的每一层l,令2≤l≤lgS,每隔两个子节点将连续四个子节点划分为一个四元组U,则第l层有2l‑1‑1个四元组;设Up是第l层划分的第p个四元组,范围是[a:b],长度是有1≤p≤2l‑1‑1,那么:a=2(p-1)S2l+1]]>b=2(p-1)S2l+4S2l]]>(3)获取所有四元组的候选单词列表假设四元组Up对应的时间间隔中一共有σ个不同的单词,σ<T,通过遍历这些单词,计算每个单词的词频;其中Up对应的四个子节点中包含的单词数目依次为c1,c2,c3和c4;令c=min(c1,c2,c3,c4),则若单词t在Up中的出现次数大于α×c,那么将t加入到Up对应的候选单词列表Cp中,通过遍历这个四元组内的所有单词,获得这个四元组对应的候选单词列表;(4)优化单词计数的数据结构令Rq=[m:n],Up为与其相关的四元组,Cp是Up对应的候选单词列表;优化单词计数的数据结构的形式化描述如下:对于每个不同的单词t:,将单词在每个单位时间间隔中的数量累加,即t_c[t][s]=t_c[t][s‑1]+s中t的数量,其中t_c表示单词在每个单位时间间隔中的数量的累加;将每个单位时间间隔内所有单词的数量累加,即total[s]=total[s‑1]+s中所有单词的数量;当Rq=[m:n]时,单词t的词频freqt,m,n=countt,m,n/Totalm,n,计算freqt,m,n的时间为O(1),其中countt,m,n=t_c[t][n]‑t_c[t][m‑1],sTotalm,n=total[n]‑total[m‑1]。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710059191.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种标准SQL转换成全文检索标准查询的方法
- 下一篇:一种外部数据检索装置