[发明专利]用于搜索多个数据记录的方法和搜索引擎有效
申请号: | 201180040712.0 | 申请日: | 2011-08-17 |
公开(公告)号: | CN103098052A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 埃明·卡拉耶尔;卡斯滕·海因茨;马蒂亚斯·克林斯 | 申请(专利权)人: | 欧米克数据质量有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 刘继富;王春伟 |
地址: | 德国普福*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索 数据 记录 方法 搜索引擎 | ||
1.一种用于搜索多个(D)数据记录(dI)的计算机实施的方法,其中
-接收含有至少一个搜索词语(qi)的搜索查询(Q),
-根据参考集(T)来确认含有与该搜索词语(qi)相似或相同的词语(tj)的子集(V),
-针对该子集(V)中的每个词语(tj)
-确定与该搜索词语(qi)的相似性量度(Aj),
-确定该词语(tj)的出现概率(pj),
-将取决于所述词语(tj)的加权分布(Xj)应用到所述子集(V)中的这些词语(tk)上,其中具有较高相似性量度(Ak)的这些词语(tk)与具有较低相似性量度(Ak)的词语(tk)相比被更强地加权,以及
-根据所述子集(V)中的这些词语(tk)的这些加权的概率来确定所述词语(tj)的修改的概率(p’j,p”j),
-对这些数据记录(dI)针对它们与所述搜索查询(Q)的相关性(R)进行评定,其中
-执行一个检查来确定所述子集(V)中的这些词语(tj)是否出现在所述数据记录(dI)中,以及
-如果所述子集(V)中的词语(tj)出现在所述数据记录(dI)中,那么所述词语(tj)的较低修改的概率(p’j,p”j)导致所述数据记录(dI)的较高相关性评定值,以及
-基于至少一个数据记录子集的相关性评定值(R)来输出所述至少一个数据记录子集。
2.如权利要求1所述的方法,
其特征在于
所述加权分布(Xj)处于一种形式以使得词语(tj)的修改的概率(p’j,p”j)的确定仅考虑所述词语(tj)本身的概率(pj)的因素并且还考虑与这个词语(tj)相比具有一个较高相似性量度(Ak)的其他词语(tk)的概率(pk)的因素。
3.如权利要求1所述的方法,
其特征在于
通过对一个S形函数的评估来确定所述加权(Xj),第二词语(tk)的概率(pk)通过所述加权得到第一词语(ti)的修改的概率(p’i,p”i),评估中心是所述第一词语(tj)的相似性量度(Ak)与所述第二词语(ti)的相似性量度(Aj)的差集。
4.如权利要求1或2所述的方法,
其特征在于
所述加权分布(Xj)处于一种形式以使得词语(tj)的修改的概率(p’j,p”j)的确定还考虑具有较低加权的其他词语(tk)的概率(pk)的因素,所述较低加权具有较低相似性量度(Ak),具有较低相似性量度的另一个词语(tk)的加权取决于其修改的概率(p’j,p”j)被确定的所述词语(tj)的相似性量度(Aj)与另一个词语(tk)的相似性量度(Ak)之间的差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于欧米克数据质量有限公司,未经欧米克数据质量有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180040712.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:单晶硅太阳能电池及其制作方法
- 下一篇:异质结太阳能电池及其制作方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置