[发明专利]一种基于语义压缩的文档存储方法有效
申请号: | 201210329421.X | 申请日: | 2012-09-08 |
公开(公告)号: | CN102867048A | 公开(公告)日: | 2013-01-09 |
发明(设计)人: | 曾嘉;曹小琴;严建峰;刘晓升 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 陶海锋 |
地址: | 215123 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语义压缩的文档存储方法,包括,构建文档信息矩阵、主题在单词表的分布矩阵、文档在主题分布矩阵,进行矩阵初始化,对每一篇文档的每一个单词重新分配主题,对所有文档和主题根据语义压缩的变化程度降序排序,对降序排列的文档集合中,更新前N个文档中单词的主题分配,更新的主题是降序排列的主题集合中前M个主题,其中:N=td×DD;M=tk×TT,DD为文档总数,TT是主题总数,td和tk是0.01~0.5之间的预设值;重复降序排列和更新,直至满足迭代结束条件;输出主题在单词表中的分布,文档在主题的分布。本发明可减少存储空间,加快检索速度,在提高语义压缩速度的同时,保证了语义压缩的精度。 | ||
搜索关键词: | 一种 基于 语义 压缩 文档 存储 方法 | ||
【主权项】:
1.一种基于语义压缩的文档存储方法,用于对文档集合D的存储,其特征在于,包括下列步骤:(1)用计算机读入文档集合D,根据文档集合D构建表示文档信息的W×D矩阵,其中,W为文档中出现的单词集合,矩阵元素为单词在文档中出现的次数;(2)构建主题在单词表的分布的phi矩阵、文档在主题分布的theta矩阵,其中,phi矩阵为单词集合W和主题集合T构成的二维矩阵,矩阵元素为单词在主题上的权值,theta矩阵为文档集合D和主题集合T构成的二维矩阵,矩阵元素为文档在主题上的权值,phi矩阵和theta矩阵各矩阵元素的初始值为0;(3) phi矩阵和theta矩阵的初始化,依次为文档中的每一个单词随机分配一个主题Ti,该文档在该主题Ti上的权值增加Cj,单词表中该单词在主题Ti上的权值增加Cj;其中,i为该随机分配的主题对应的序号,Cj为该单词在该文档中出现的次数;(4)根据步骤(3)获得的矩阵对文档单词在主题的分布mu矩阵进行初始化,mu矩阵为主题集合T和单词Wdi构成的二维矩阵,Wdi表示第d篇文章的第i个单词;(5)第一次迭代,对每一篇文档的每一个单词重新分配主题,方法是,a. 取消当前正在处理单词已有的主题分配,消除已有分配在单词表和所属文档的影响,修改phi矩阵和theta矩阵,wi为单词在单词表中的索引值;xi为单词在文档中的次数;J为主题总数;j为当前处理的主题,取值0~J-1;i为单词在文档单词中的索引值;di为文档编号索引值,则修改phi矩阵和theta矩阵方法如下:将phi矩阵中该单词在各个主题的分布减去;phi[wi×J+j]= phi[wi×J+j]-xi×mu[i×J+j]将theta矩阵中该文档在各个主题的分布减去;theta[di×J+j]= theta[di×J+j]-xi×mu[i×J+j]将单词表中各个主题的分布累计值减去,phitot[j]= phitot[j]-xi×mu[i×J+j]b. 根据当前文档的主题信息及单词表上该单词的主题信息,更新文档中该单词的主题分布信息,更新公式如下: 式中,munew是更新后的mu值,BETA、WBETA、ALPHA是预设参数,为常量,其中,BETA和ALPHA取值在0~0.5之间,WBETA是单词表中的单词数乘以BETA值;c. 用新的mu值更新phi矩阵和theta矩阵,各个主题的分布累加,phi[wi×J+j]= phi[wi×J+j]+xi×mu[i×J+j]phitot[j]= phitot[j]+xi×mu[i×J+j]theta[di×J+j]= theta[di×J+j]+xi×mu[i×J+j];(6)对所有文档和主题根据语义压缩的变化程度降序排序,排序方法为:扫描每一个单词在每一个主题上的权值的变化程度,变化值=|更新前的主题权值-更新后的主题权值|×单词在该主题出现的次数将一个主题涉及的所有单词的变化值进行累加,得到主题的变化值;将一篇文档所有单词的变化值进行累加,得到文档的变化值;分别获得按变化值降序排序的文档列表和主题列表;(7)进行后续迭代:对降序排列的文档集合中,更新前N个文档中单词的主题分配,更新的主题是降序排列的主题集合中前M个主题,更新方法按步骤(5)中的方法进行,其中:N=td×DD;M=tk×TT,DD为文档总数,TT是主题总数,td和tk是0.01~0.5之间的预设值;(8)重复步骤(6)和步骤(7),直至满足迭代结束条件;(9) 输出主题在单词表中的分布,文档在主题的分布,由此作为文档集合D的存储数据,实现基于语义压缩的文档存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210329421.X/,转载请声明来源钻瓜专利网。