[发明专利]一种搜索引擎的评测方法有效
申请号: | 201210384318.5 | 申请日: | 2012-10-11 |
公开(公告)号: | CN102929962A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 朱明;孙永录;尹文科 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;赵镇勇 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索引擎 评测 方法 | ||
1.一种搜索引擎的评测方法,其特征在于,包括:
根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前关键词在当前网页中的网页相关度;
计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
抓取关键词,将抓取到的关键词按照领域进行分类,并构建领域本体图;
将某一关键词发送至搜索引擎,通过所述搜索引擎返回的相关网页及所述某一关键词对应的领域本体图,构建对应的网页本体图。
3.根据权利要求2所述的方法,其特征在于,所述领域本体图包括:关键词集合及每个关键词的权重值、关键词的词性、关键词的分类关系及相关关键词间的关系权重值;
构建领域本体图的步骤为:
按照领域类型建立关键词集合,确定所述关键词集合中所有关键词的词性,并按照语义相近程度将所述关键词集合中的关键词聚类;
再根据分类学、语义和聚类概念对所述关键词集合中的关键词进行抽取,获得分类关系、关系集合与聚簇关系集合;
根据抽取时的概率计算每一个关键词在当前领域本体中的权重值、分类关系中关键词间的关系权重值及关系集合中关键词间的关系权重值。
4.根据权利要求3所述的方法,其特征在于,构建网页本体图的步骤包括:
将网页文本分割为M个短句,从中提取出N个当前领域本体中的关键词,并分别计算每一个关键词在当前网页中的权重值,所述M、N为大于0的自然数;
根据当前领域本体图查找具有相关性的关键词,并将其在当前网页中的权重值和当前领域本体图中对应的相关关键词的关系权重值相乘,获得其在网页中的关系权重值。
5.根据权利要求4所述的方法,其特征在于,所述计算某一关键词在当前网页的网页相关度的步骤包括:
将网页本体图中该关键词与其自身间关系权重值之外的所有关系权重值之和除以当前领域本体图中该关键词与其自身间关系权重值之外的所有关系权重值之和,获得某一关键词在当前网页的网页相关度。
6.根据权利要求5所述的方法,其特征在于,所述计算所述某一关键词通过搜索引擎返回的若干网页的网页相关度总和包括:
分别将每一个返回的网页的网页相关度与所述网页在当前搜索引擎页面的权重值相乘,再计算总和,获得当前搜索引擎在所述某一关键词所处领域的评分。
7.根据权利要求1或6所述的方法,其特征在于,该方法还包括:
将某一关键词分别通过S个搜索引擎进行搜索,并统一选取返回的若干网页,分别计算每一个搜索引擎返回的若干网页的网页相关度总和,按照所述网页相关度总和的大小,判断搜索引擎在所述某一关键词所处领域优劣,所述S为大于0的自然数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210384318.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:太阳能电池用的多晶硅锭的高输出制造设备
- 下一篇:磷光膜、成像组件及检查方法