[发明专利]信息检索向量空间模型硬件化实现方法无效
申请号: | 200810059855.6 | 申请日: | 2008-02-22 |
公开(公告)号: | CN101271467A | 公开(公告)日: | 2008-09-24 |
发明(设计)人: | 陈天洲;郑臻炜;黄江伟;施清松 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 | 代理人: | 林怀禹 |
地址: | 310027浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 检索 向量 空间 模型 硬件 实现 方法 | ||
技术领域
本发明涉及信息检索领域和定制化硬件领域,特别是涉及一种信息检索向量空间模型硬件化实现方法。
背景技术
在信息检索领域,信息检索服务系统的任务有:(1)获取无结构化的文档,做一定的标准化处理,(2)将获取的文档维护在一个海量文档库中,(3)响应用户的查询请求,从文档库中找到与查询关键字匹配度最高的文档,返回给用户。这三个任务中,其中(3)对效率的要求最高,要求系统能够在最短的时间内响应用户的请求。
向量空间模型是信息检索业界最广泛使用的模型。该模型中,文档中有意义的词条的字段被提取出来,文档库中的所有文档的所以字段的合集就构成了向量空间,其中每个字段就是向量空间中的一维。一个文档就是可以由其字段确定为空间的一个向量,而一个查询也可以由其关键词字段确定为空间的一个向量。在向量空间模型中,查询的过程就是寻找空间中与查询向量距离最近的文档向量。
在向量空间模型中,计算文档与查询向量之间的距离,一般采用权重的计算方式,即对于查询中的每一个字段,计算每一个文档相对于该特定字段的权重,然后找出权重最大的一部分文档返回。其权重计算公式如下:
W=TF·IDF
IDF=ln(N/n)
其中W表示一个文档对于特定字段的权重
TF表示特定字段在文档中出现的频率
IDF表示逆文档频率,其计算公式中,N表示所以文档的总数,n表示所以文档中,具有特定字段的文档的个数。然后进行自然对数操作。
TF的意义在于,特定字段在一个文档中出现的频率越高,该文档相对于特定字段的权重越大;IDF的意义在于,特定字段在所有其他文档中出现的频率越低,说明在目标文档中该特定字段越具有代表性。然而,无论如何,计算一个字段在一个文档中的出现频率在向量空间模型中占据了巨大的计算资源,这提出了对次特定任务做硬件化加速的需求。
在定制硬件领域,硬件化的任务可以由特定硬件部件或者硬件知识产权核来完成,其优点是在硬件级别对特定任务做优化,在硬件级消除多余指令和操作,加速系统的关键任务和操作,提高系统效率。其关键是提炼系统的关键任务,加以硬件化实现。
发明内容
本发明的目的在于提供一种信息检索向量空间模型硬件化实现方法。
本发明解决其技术问题所采用的技术方案如下:
1)硬件化数据准备:
为了进行硬件化的操作,先要将查询的字段和文档的数据做处理以适应硬件化处理的要求;
字段和文档都被转化成二进制数据;其中,字段所需要的额外数据是字段的长度以便硬件的处理;根据硬件处理的要求,文档会被划分成若干部分,每部分都是一个字段的集合,同时包括每部分文档中的字段数量,各个字段在每文档中的偏移量数组;
2)发送数据到本地存储设备:
数据准备完成之后,就可以把向量空间模型中字段在文档中出现频率统计的计算在硬件上完成;
为了进一步提高硬件效率,统计硬件需要有本地存储支持,把一个待比较的目标字段同目标文档,以及字段的长度、文档字段数和文档字段偏移数据发送到本地存储,这些数据被放到固定位置上,以便硬件上的处理;
3)字段的比较过程:
当数据被发送到本地存储之后,就开始了硬件化的字段比较过程,该过程反复进行,直到本地存储中的文档字段全部完成比较;
一次的比较过程是这样的:目标字段被取到字段寄存器,同时有一个计数器计数到当前处理到了文档中的字段,文档中的字段被取到文档寄存器,然后开始硬件的比较过程;
4)字段超长的处理:
因为寄存器是定长的,不能设计成符合字段最长情况下的长度,这样会造成硬件的浪费,而且字段的长度具有不可预料性,所以会出现字段长度超过字段寄存器的情况;
字段超长情况下,每次比较字段中的一部分数据,每次在字段内部进行偏移,合成多次比较结果,完成一个字段的比较;
5)相似度比较结果统计:
每完成一次文档中字段与目标字段的比较过程,就要进行一次基于相似度的比较结果统计,该步骤是基于硬件并行完成的;
本方法有一个相似度的阈值,超过这个阈值的相似度比较结果,可以被认为是相同的字段,从而引发计数器,统计目标字段的出现频率。
本发明与背景技术相比,具有的有益的效果是:
本发明对信息检索向量空间模型提供了硬件化的支持,通过特化硬件来进行字段频率的统计操作,其好处在于:硬件上并发字段比较过程;特化硬件具有高计算密度,减小计算资源浪费;特化硬件本身可以并发,提高并发度;具有硬件存储系统支持;均大幅度提高了信息检索系统的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810059855.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种牙髓清理方法以及牙髓清除机
- 下一篇:网络设备测试方法及系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置