[发明专利]一种文本检索的方法和装置有效
申请号: | 200710123832.2 | 申请日: | 2007-10-09 |
公开(公告)号: | CN101140583A | 公开(公告)日: | 2008-03-12 |
发明(设计)人: | 胡辛遥;韩定一;俞勇;金洪波;吕晓雨 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 检索 方法 装置 | ||
1.一种文本检索的方法,其特征在于,包括:
输入原始文本数据;
对所述原始文本数据进行自适应映射降维处理;
根据所述自适应映射降维处理后的数据,检索与其相似的文本数据。
2.如权利要求1所述的方法,其特征在于,在所述根据所述自适应映射降维处理后的数据,检索与其相似的文本数据的步骤之后,进一步包括:
输出所述检索到的文本数据。
3.如权利要求1所述的方法,其特征在于,所述对原始文本数据进行自适应映射降维处理的步骤包括:
根据所述原始文本数据的维数和目标映射空间的维数,确定降维映射关系;
根据所述确定的降维映射关系,确定所述原始文本数据各维度同目标映射空间各维度的对应关系。
4.如权利要求3所述的方法,其特征在于,在所述根据原始文本数据的维数和目标映射空间的维数,确定降维映射关系的步骤之前,该方法进一步包括:
确定目标映射空间的维数。
5.如权利要求3所述的方法,其特征在于,在所述确定所述原始数据各维同目标映射空间各维的对应关系的步骤之后,该方法进一步包括:
根据原始文本数据,计算目标映射空间各维度的取值。
6.如权利要求3所述的方法,其特征在于,所述确定降维映射关系包括:选择确定哈希hash函数。
7.如权利要求1所述的方法,其特征在于,所述方法应用的场合至少包括:网络文本检索、数据库、搜索引擎或检索服务器。
8.一种文本检索装置,其特征在于,包括:输入模块、降维模块、检索模块,其中:
输入模块,用于输入原始文本数据;
降维模块,用于对所述原始文本数据进行自适应映射降维处理;
检索模块,用于根据所述降维模块处理后的数据,检索与其相似的文本数据。
9.如权利要求8所述的装置,其特征在于,该装置进一步包括:
输出模块,用于输出所述检索模块检索到的文本数据。
10.如权利要求8所述的装置,其特征在于,所述降维模块包括:
维度映射模块,用于根据原始数据的维数和目标映射空间的维数,确定降维映射关系;根据所述确定的降维映射关系,确定原始文本数据各维度同目标映射空间各维度的对应关系;
计算模块,用于计算目标映射空间各维度的取值。
11.如权利要求8所述的装置,其特征在于,进一步包括:
参数调节模块,用于确定目标映射空间的维数、目标映射空间各维度取值的计算方式、选取降维映射关系;将该模块所确定和/或选取的参数传递给所述降维模块以参与控制降维模块的运行。
12.如权利要求8所述的装置,其特征在于,该装置集成于网络文本检索器、数据库、搜索引擎或检索服务器中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710123832.2/1.html,转载请声明来源钻瓜专利网。