[发明专利]搜索辅助系统、搜索辅助方法及程序有效
申请号: | 201010140447.0 | 申请日: | 2010-04-02 |
公开(公告)号: | CN101840420A | 公开(公告)日: | 2010-09-22 |
发明(设计)人: | 李春平;王益斌;阿部昌平 | 申请(专利权)人: | 清华大学;株式会社野村综合研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084 北京市10*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 辅助 系统 方法 程序 | ||
1.一种搜索辅助系统,其特征在于具有:
将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的技术手段,
将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网页选择的技术手段,
在收到来自客户端的基准网页选择信息时,将该基准网页的文本分解为语素单位,并提取特定词性相关的关键词的技术手段,
对每一个被提取关键词生成以AND条件将其与上述搜索关键词相连的搜索公式,并将各搜索公式发送至搜索服务器、提交搜索请求的技术手段,
在搜索服务器返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提取出所定数目的网页作为相似候选网页的技术手段,
可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算方法,
将相似度高的指定数目的搜索公式相关关键词认定为重要词语的技术手段,
在上述所有的相似候选网页中,将包含多于指定数目的上述重要词语的网页认定为相似网页的技术手段,
生成记有该相似网页列表的页面并将其发送至上述客户端的技术手段。
2.上述页面间相似度计算方法为要求项1中所记的搜索辅助系统,其特征在于进行以下处理:
将各搜索公式相关的相似候选网页中的某一相似候选网页设定为比较对象网页,并分别计算进行比较的对象网页与其余相似候选网页间的相似度,在所有计算结果中按序抽出指定数目的结果,计算出这些相似度结果的平均值作为临界值;重复以上所有处理直至该搜索公式相关的所有相似候选网页都被设定为比较对象网页后,将得到的所有临界值中的具有最大值的临界值设定为该搜索公式相关的页面间相似度。
3.上述页面间相似度计算方法为要求项2中所记的搜索辅助系统,其特征在于实行以下处理:
将上述比较对象网页与其他相似候选网页分解为语素单位,从各网页提取出与指定词性相关的语素,计算被提取的各语素的TF-IDF值,并根据各语素的该TF-IDF值将各网页进行矢量化处理,计算比较对象网页矢量与其他相似候选网页矢量的标量积(dot product),作为两个网页之间的相似度。
4.一种搜索辅助方法,其特征在于由以下步骤组成:
将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的步骤,
将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网页选择的步骤,
在收到来自客户端的基准网页选择信息时,将该基准网页的文本分解为语素单位,并提取特定词性相关的关键词的步骤,
对每一个被提取关键词生成以与(AND)条件将其与搜索关键词相连的搜索公式,并将各搜索公式发送至搜索服务器、提交搜索请求的步骤,
在搜索服务器返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提取出所定数目的网页作为相似候选网页的步骤,
可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算步骤,
将相似度高的指定数目的搜索公式相关关键词认定为重要词语的步骤,
在上述所有的相似候选网页中,将包含多于指定数目的上述重要词语的网页认定为相似网页的步骤,
生成记有该相似网页列表的页面并将其发送至上述客户端的步骤。
5.一种搜索辅助程序(program),其特征在于使计算机发挥以下功能:
将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的功能,
将上述搜索服务器发来的记有搜索结果列表的图像发送至上述客户端、促使其进行基准网页选择的功能,
在收到来自上述客户端的基准网页选择信息时,将该基准网页的文本分解为语素单位,并提取特定词性相关的关键词的功能,
对每一个被提取关键词生成以AND条件将其与上述搜索关键词相连的搜索公式,并将各搜索公式发送至上述搜索服务器、提交搜索请求的功能,
在搜索服务器返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提取出所定数目的网页作为相似候选网页的功能,
可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算功能,
将相似度高的指定数目的搜索公式相关关键词认定为重要词语的功能,
在上述所有的相似候选网页中,将包含多于指定数目的上述重要词语的网页认定为相似网页的功能,
生成记有该相似网页列表的页面并将其发送至上述客户端的功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;株式会社野村综合研究所,未经清华大学;株式会社野村综合研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010140447.0/1.html,转载请声明来源钻瓜专利网。