[发明专利]用于搜索多个数据记录的方法和搜索引擎有效

专利信息
申请号: 201180040712.0 申请日: 2011-08-17
公开(公告)号: CN103098052A 公开(公告)日: 2013-05-08
发明(设计)人: 埃明·卡拉耶尔;卡斯滕·海因茨;马蒂亚斯·克林斯 申请(专利权)人: 欧米克数据质量有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人: 刘继富;王春伟
地址: 德国普福*** 国省代码: 德国;DE
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种由计算机实施的、用于在多个(D)数据集(d1)中进行搜索的方法,其中接收具有至少一个搜索词语(qi)的一个搜索查询(Q),根据一个参考量(T)推导出具有与该搜索词语(qi)相似或相同的多个词语(tj)的一个部分量(V),针对该部分量(V)的每个词语(tj)确定与该搜索词语(qi)的一个相似性量度(Aj),确定该词语(tj)的出现概率(pj),将取决于该词语(tj)的一个加权分布(Xj)应用到该部分量(V)的这些词语(tk)上,其中具有一个较大相似性量度的这些词语(tk)与具有一个较小相似性量度的多个词语(tk)相比被更重地加权,并且根据该部分量(V)的这些词语(tk)的这些加权概率来确定该词语(tj)的一个修改的概率(p’j,P”j)。另外对这些数据集(di)就其与该搜索查询(Q)的相关性(R)来进行评估,其中做出关于该部分量的这些词语(tj)是否出现在该数据集(dj)中的一个检查,并且如果该部分量(Q)的一个词语(tj)出现在该数据集(d1)中,则该词语(tj)的一个较小修改的概率(p’j,P”j)导致该数据集(d1)的一个较大相关性值,并且至少一个部分数据集量作为其相关性值(R)的一个函数被输出。本发明进一步涉及一种用于执行所述方法的搜索引擎。
搜索关键词: 用于 搜索 数据 记录 方法 搜索引擎
【主权项】:
一种用于搜索多个(D)数据记录(dI)的计算机实施的方法,其中‑接收含有至少一个搜索词语(qi)的搜索查询(Q),‑根据参考集(T)来确认含有与该搜索词语(qi)相似或相同的词语(tj)的子集(V),‑针对该子集(V)中的每个词语(tj)‑确定与该搜索词语(qi)的相似性量度(Aj),‑确定该词语(tj)的出现概率(pj),‑将取决于所述词语(tj)的加权分布(Xj)应用到所述子集(V)中的这些词语(tk)上,其中具有较高相似性量度(Ak)的这些词语(tk)与具有较低相似性量度(Ak)的词语(tk)相比被更强地加权,以及‑根据所述子集(V)中的这些词语(tk)的这些加权的概率来确定所述词语(tj)的修改的概率(p’j,p”j),‑对这些数据记录(dI)针对它们与所述搜索查询(Q)的相关性(R)进行评定,其中‑执行一个检查来确定所述子集(V)中的这些词语(tj)是否出现在所述数据记录(dI)中,以及‑如果所述子集(V)中的词语(tj)出现在所述数据记录(dI)中,那么所述词语(tj)的较低修改的概率(p’j,p”j)导致所述数据记录(dI)的较高相关性评定值,以及‑基于至少一个数据记录子集的相关性评定值(R)来输出所述至少 一个数据记录子集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于欧米克数据质量有限公司,未经欧米克数据质量有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201180040712.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top