[发明专利]信息检索向量空间模型硬件化实现方法无效
申请号: | 200810059855.6 | 申请日: | 2008-02-22 |
公开(公告)号: | CN101271467A | 公开(公告)日: | 2008-09-24 |
发明(设计)人: | 陈天洲;郑臻炜;黄江伟;施清松 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 | 代理人: | 林怀禹 |
地址: | 310027浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种信息检索向量空间模型硬件化实现方法。采用硬件化的实现方法来完成信息检索领域所广泛使用的向量空间模型的关键计算步骤-统计一个字段在文档中出现的频率,来提高信息检索系统的效率。通过特化硬件来实现硬件级的字段相似度比较和硬件级的结果统计,并且对这一过程提供存储系统的支持。本发明的好处在于:硬件上并发字段比较过程;特化硬件具有高计算密度,减小计算资源浪费;特化硬件本身可以并发,提高并发度;具有硬件存储系统支持;均大幅度提高了信息检索系统的效率。 | ||
搜索关键词: | 信息 检索 向量 空间 模型 硬件 实现 方法 | ||
【主权项】:
1.一种信息检索向量空间模型硬件化实现方法,其特征在于:1)硬件化数据准备:为了进行硬件化的操作,先要将查询的字段和文档的数据做处理以适应硬件化处理的要求;字段和文档都被转化成二进制数据;其中,字段所需要的额外数据是字段的长度以便硬件的处理;根据硬件处理的要求,文档会被划分成若干部分,每部分都是一个字段的集合,同时包括每部分文档中的字段数量,各个字段在每文档中的偏移量数组;2)发送数据到本地存储设备:数据准备完成之后,就可以把向量空间模型中字段在文档中出现频率统计的计算在硬件上完成;为了进一步提高硬件效率,统计硬件需要有本地存储支持,把一个待比较的目标字段同目标文档,以及字段的长度、文档字段数和文档字段偏移数据发送到本地存储,这些数据被放到固定位置上,以便硬件上的处理;3)字段的比较过程:当数据被发送到本地存储之后,就开始了硬件化的字段比较过程,该过程反复进行,直到本地存储中的文档字段全部完成比较;一次的比较过程是这样的:目标字段被取到字段寄存器,同时有一个计数器计数到当前处理到了文档中的字段,文档中的字段被取到文档寄存器,然后开始硬件的比较过程;4)字段超长的处理:因为寄存器是定长的,不能设计成符合字段最长情况下的长度,这样会造成硬件的浪费,而且字段的长度具有不可预料性,所以会出现字段长度超过字段寄存器的情况;字段超长情况下,每次比较字段中的一部分数据,每次在字段内部进行偏移,合成多次比较结果,完成一个字段的比较;5)相似度比较结果统计:每完成一次文档中字段与目标字段的比较过程,就要进行一次基于相似度的比较结果统计,该步骤是基于硬件并行完成的;本方法有一个相似度的阈值,超过这个阈值的相似度比较结果,可以被认为是相同的字段,从而引发计数器,统计目标字段的出现频率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810059855.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种牙髓清理方法以及牙髓清除机
- 下一篇:网络设备测试方法及系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置