[发明专利]一种关键词的多样化拓展方法有效
申请号: | 201410004563.8 | 申请日: | 2014-01-06 |
公开(公告)号: | CN103744956B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海天协和诚知识产权代理事务所31216 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 多样化 拓展 方法 | ||
技术领域
本发明属于Web信息检索领域,具体涉及Web信息检索、 Web信息应用中的一种关键词的拓展方法。
背景技术
随着网络在人们日常生活中的普及,网络上的资源呈指数倍增长。各种信息杂乱地分布在互联网络上,目前,大部分用户借助搜索引擎来查找信息。但是,依靠关键词匹配的技术来筛选信息,使得现有的搜索引擎技术具有很大的局限性。缺点之一是:搜索引擎对用户服务质量的好坏在很大程度上依赖于用户输入的关键词的精确程度。实际上,只有少部分的用户一次性地给出准确的搜索词。由于用户的先验知识及用户表达能力的差异,很多情况下,在输入关键词时,用户需要搜索引擎提供一定的指导。
目前,也出现了一些关键词拓展/关键词推荐的相关技术和应用。例如:Google、Bing、Baidu等知名搜索引擎的“Searches related to…”中,系统推荐出了与搜索词相匹配的、并且最近一段时间的热度搜索关键词;搜索“天气预报”,会出现“天气预报查询一周”、“北京天气预报”、“上海天气预报”等。但是,这样的相关搜索有一个前提,要求用户输入的关键词是正确的。假如,用户无法给出查询内容的一个关键词,这种推荐是无效的。此外,有些搜索引擎也会借助传统的搜索引擎,把匹配到的网页中出现频次较高的一些词作为扩展词,推荐给用户;比如:Carrot(http://search.carrot2.org/stable/search)。相比于Google等的“Searches related to..”,这类推荐能够帮助用户对搜索的内容进一步精确。比如:搜索“教育”,会推荐出“高等教育”,“高考”,“儿童教育”等。这类推荐适用于需要对搜索内容逐步细化和精确的情况,而不适用于需要对搜索词进行联想式的扩展。同时,这类推荐需要系统实时地去提取高频率关键词,带给系统一定的负载和延迟。
发明内容
本发明的主要目的在于提供一种关键词扩展方法。通过使用这种方法,Web信息服务应用系统对给定的关键词进行 “关联性”拓展、“兄弟语义”拓展和“用户个性化”拓展。所谓“关联性”拓展,是指查找一些与输入关键词不匹配,但是有现实关联的关键词。比如:输入“大学学院”,扩展出“医学院”、“研究所”、“建筑科学”、“艺术教育”等等;输入“远程教育”,拓展出“科研”,“法学”等。“兄弟语义”关联是指,查找与输入关键词属于同一个主题的其它关键词;在本体中,这些词具有同一个父类词。比如:“苹果”和“梨”,它们具有共同的父类词“水果”。“用户个性化”扩展是指依据用户的偏好对关键词进行扩展。
本发明给出的技术方案是:
一种关键词的多样化扩展方法,用于辅助网络信息搜索。其特征在于:
(1)首先,把网页类别看作一个主题。依据选定的分类体系,把网页进行分类;对网页类与网页类之间的超链接进行统计、归一化,构建网页类与网页类之间的关联,形成基于网页分类的索引网络。
(2)其次,基于构建的索引网络,实现关键词的多样化扩展。主要包含关键词的“兄弟语义”扩展、关键词的“关联性”扩展和关键词的“用户个性化”扩展三种关键词扩展方法。
所述关键词,是指用户用来搜索信息时,所输入的关键词;
所述关键词的“兄弟语义”扩展,是指扩展出与关键词同属于一个主题的其它特征词;
所述关键词的“关联性”拓展,是指扩展出与关键词具有某种现实关联的其它特征词;
所述关键词的“用户个性化”扩展,是指针对歧义关键词,依据用户的历史日志,预估用户正在查找的关键词语义,并推荐出与选定语义相关的其它特征词。
与现有技术相比,本发明的有益效果:
(1)“关联性”扩展可以拓展出一些不包含搜索词,但是与搜索词紧密关联的一系列关键词。
(2)“兄弟语义”扩展能够扩展出与关键词同属于一个主题的其它特征词。扩展出的结果比现有技术更加多样化、覆盖面更加全。
(3)“用户个性化”扩展,能够智能识别用户的偏好进行扩展,当用户输入的关键词为多义词时,这种方法利于区分用户的查询语义。另外,用户个性化扩展的优势是,即使用户以前没有查询过这个关键词或者这个领域,扩展仍然能够推荐出用户最有可能的查询语义。
附图说明
下面结合附图和实施方式对本发明作进一步的详细说明:
图1为基于网页分类的索引网络的构建流程。
图2为互联网络上的网页爬取流程。
图3为网页类与网页类之间的关联构建。
图4为兄弟语义关键词拓展的实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410004563.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人造食品壳体、其除去方法及其制造方法
- 下一篇:超声波增强种子萌芽系统