[发明专利]用于搜索多个数据记录的方法和搜索引擎有效

专利信息
申请号: 201180040712.0 申请日: 2011-08-17
公开(公告)号: CN103098052A 公开(公告)日: 2013-05-08
发明(设计)人: 埃明·卡拉耶尔;卡斯滕·海因茨;马蒂亚斯·克林斯 申请(专利权)人: 欧米克数据质量有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人: 刘继富;王春伟
地址: 德国普福*** 国省代码: 德国;DE
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 搜索 数据 记录 方法 搜索引擎
【权利要求书】:

1.一种用于搜索多个(D)数据记录(dI)的计算机实施的方法,其中

-接收含有至少一个搜索词语(qi)的搜索查询(Q),

-根据参考集(T)来确认含有与该搜索词语(qi)相似或相同的词语(tj)的子集(V),

-针对该子集(V)中的每个词语(tj)

-确定与该搜索词语(qi)的相似性量度(Aj),

-确定该词语(tj)的出现概率(pj),

-将取决于所述词语(tj)的加权分布(Xj)应用到所述子集(V)中的这些词语(tk)上,其中具有较高相似性量度(Ak)的这些词语(tk)与具有较低相似性量度(Ak)的词语(tk)相比被更强地加权,以及

-根据所述子集(V)中的这些词语(tk)的这些加权的概率来确定所述词语(tj)的修改的概率(p’j,p”j),

-对这些数据记录(dI)针对它们与所述搜索查询(Q)的相关性(R)进行评定,其中

-执行一个检查来确定所述子集(V)中的这些词语(tj)是否出现在所述数据记录(dI)中,以及

-如果所述子集(V)中的词语(tj)出现在所述数据记录(dI)中,那么所述词语(tj)的较低修改的概率(p’j,p”j)导致所述数据记录(dI)的较高相关性评定值,以及

-基于至少一个数据记录子集的相关性评定值(R)来输出所述至少一个数据记录子集。

2.如权利要求1所述的方法,

其特征在于

所述加权分布(Xj)处于一种形式以使得词语(tj)的修改的概率(p’j,p”j)的确定仅考虑所述词语(tj)本身的概率(pj)的因素并且还考虑与这个词语(tj)相比具有一个较高相似性量度(Ak)的其他词语(tk)的概率(pk)的因素。

3.如权利要求1所述的方法,

其特征在于

通过对一个S形函数的评估来确定所述加权(Xj),第二词语(tk)的概率(pk)通过所述加权得到第一词语(ti)的修改的概率(p’i,p”i),评估中心是所述第一词语(tj)的相似性量度(Ak)与所述第二词语(ti)的相似性量度(Aj)的差集。

4.如权利要求1或2所述的方法,

其特征在于

所述加权分布(Xj)处于一种形式以使得词语(tj)的修改的概率(p’j,p”j)的确定还考虑具有较低加权的其他词语(tk)的概率(pk)的因素,所述较低加权具有较低相似性量度(Ak),具有较低相似性量度的另一个词语(tk)的加权取决于其修改的概率(p’j,p”j)被确定的所述词语(tj)的相似性量度(Aj)与另一个词语(tk)的相似性量度(Ak)之间的差。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于欧米克数据质量有限公司,未经欧米克数据质量有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201180040712.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top