[发明专利]一种基于遗传算法的搜索方法及装置无效
申请号: | 201010592626.8 | 申请日: | 2010-12-16 |
公开(公告)号: | CN102043846A | 公开(公告)日: | 2011-05-04 |
发明(设计)人: | 闫俊英;宁建红;熊玉梅 | 申请(专利权)人: | 上海电机学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海思微知识产权代理事务所(普通合伙) 31237 | 代理人: | 郑玮 |
地址: | 200240 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 算法 搜索 方法 装置 | ||
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于遗传算法的搜索方法及装置。
背景技术
随着技术的不断发展,新的信息检索方法不断涌现。但在目前很多搜索服务中,没有针对不同用户的个性化的信息搜索服务,不同用户相同查询请求返回的查询结果也相同,即系统不能识别不同用户个性信息需求上的差别。因此如何在搜索的过程中合理描述并利用用户的个性化信息,提供个性化搜索成为了信息检索领域中许多学者的研究热点。在个性化信息服务中,如何表达和提取用户的个性化信息以及如何实现信息的个性化过滤成为个性化服务研究的关键技术。在目前的个性化服务中,基于本体的个性化信息服务,改变了以往在判别网页相关性方面所采用的向量空间模型。
基于本体的个性化信息服务中,通过将关键词汇映射到语义概念一级,虽然在一定程度上可以改善计算网页相关性方面的效果,但是语义表达不准确会影响网页相关性的判断,进而影响个性化搜索的准确性。基于用户行为分析的个性化信息服务或者需要由用户提供与兴趣相关或无关的示例来建立模型,此方法需要用户在浏览过程中标注页面以得到示例,干扰了用户的正常浏览;或者由系统自动进行建模,但是自动化效果不佳。
因此,设计一种性能良好、保证查全率、有效满足用户的个性化需求的搜索方法及装置十分必要,是信息检索技术领域目前急待解决的问题之
发明内容
本发明实施例提供了一种基于遗传算法的搜索方法及装置,通过依据用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,形成用户兴趣模型,并依据适应度均值选择适应度函数值最理想的个体,优化用户兴趣模型,然后将搜索的页面集合进行队列,并依据相关度进行排序,优先搜索相关度高的网页,以获得相关度较高的网页,既体现了用户的个性化,又提高了搜索的准确性。
本发明实施例提供以下技术方案:
一种基于遗传算法的搜索方法,包括:
步骤S1、依据用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,形成用户兴趣模型。
步骤S2、依据适应度均值选择适应度函数值最理想的个体,优化用户兴趣模型。
步骤S3、将搜索的页面集合进行队列,并依据相关度进行排序,优先搜索相关度高的网页。
优选的,上述步骤一中,采用模糊C均值算法,在数据集的聚类数目已知的情况下,计算最佳的数据划分。
优选的,上述步骤一中,依据用户的长期兴趣和短期兴趣进行分析。
优选的,上述步骤一中,采用一个三元组(keyi,wi,f)来表示每一个兴趣节点,其中keyi表兴趣节点的关键词,wi表示该关键词的权重,f表示该兴趣的新鲜度。
优选的,上述步骤二中,进一步包括如下步骤:
S21、随机产生size个长度为m的二进制串组成种群。
S22、种群进行以p概率进行交叉、以pc概率进行变异,产生下一代种群个体。
S23、计算个体p的适应度并判断适应度均值是否不再发生较大变化或当前的代数是否已经达到最大代数,若是则执行S24,否则转S22。
S24、选择适应度函数值最理想的个体。
优选的,上述步骤三中,进一步包括:利用通用搜索引擎获得初始的网页集合,并放入待搜索的网页队列。
优选的,上述步骤三中,进一步包括:对待搜索的网页队列,利用向量空间模型计算查询结果与用户兴趣的相关度,并按照相关度进行排序,优先搜索相关度高的网页。
一种基于遗传算法的搜索装置,包括分析聚类模块、优化模块、列队及优先搜索模块。
优选的,上述分析聚类模块,用于依据用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类,形成用户兴趣模型。
优选的,上述优化模块,用于依据适应度均值选择适应度函数值最理想的个体,优化用户兴趣模型。
优选的,上述列队及优先搜索模块,用于将搜索的页面集合进行队列,并依据相关度进行排序,优先搜索相关度高的网页。
优选的,上述优化模块,进一步包含第一生成模块,随机产生size个长度为m的二进制串组成种群。
优选的,上述优化模块,进一步包含第二生成模块,种群进行以p概率进行交叉、以pc概率进行变异,产生下一代种群个体。
优选的,上述优化模块,进一步包含计算及判断模块,计算个体p的适应度并判断适应度均值是否不再发生较大变化或当前的代数是否已经达到最大代数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010592626.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:链式链轮钩自动拉拔机
- 下一篇:一种互联网扩展广告的播放方法和扩展广告处理器