[发明专利]一种关键词的多样化拓展方法有效

专利信息
申请号: 201410004563.8 申请日: 2014-01-06
公开(公告)号: CN103744956B 公开(公告)日: 2017-01-04
发明(设计)人: 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春 申请(专利权)人: 同济大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海天协和诚知识产权代理事务所31216 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种辅助网络信息搜索的方法,实现关键词的多样化拓展。可以被嵌入应用到多种web信息服务系统中。方法基于一种简单的网页预处理及组织机制。能够依据用户不同的需求,得到关键词的在不同范围的多样化扩展词语集合;依据互联网络上面的超链接,构建基于网页分类的索引网络;基于构建好的索引网络,实现关键词的多样化扩展;即使用户以前没有查询过这个关键词或者这个领域,扩展仍然能够推荐出用户最有可能的查询语义。
搜索关键词: 一种 关键词 多样化 拓展 方法
【主权项】:
一种关键词的多样化扩展方法,用于辅助网络信息搜索;其特征在于:首先,把网页类别看作一个主题;依据选定的分类体系,把网页进行分类;对网页类与网页类之间的超链接进行统计、归一化,构建网页类与网页类之间的关联,形成基于网页分类的索引网络;其次,基于构建的索引网络,实现关键词的多样化扩展;包含关键词的“兄弟语义”扩展、关键词的“关联性”扩展和关键词的“用户个性化”扩展三种关键词扩展方法;所述关键词,是指用户用来搜索信息时,所输入的关键词;所述关键词的“兄弟语义”扩展,是指扩展出与关键词同属于一个主题的其它特征词;所述关键词的“关联性”拓展,是指扩展出与关键词具有某种现实关联的其它特征词;所述关键词的“用户个性化”扩展,是指针对歧义关键词,依据用户的历史日志,预估用户正在查找的关键词语义,并推荐出与选定语义相关的其它特征词;具体包括如下步骤:第一步,依据互联网络上面的超链接,构建基于网页分类的索引网络;(11)首先,选定网页分类体系及其训练集合,使用朴素贝叶斯算法,完成网页类的特征向量的训练;具体地,借助dmoz人工分类目录的中文部分,人工选取分类目录中的300个类,把它们包含的网页作为训练集;训练完成之后,使用WorldNet,对网页类的特征词进行近义词拓展,获得描述更全面的特征向量;(12)然后,爬取互联网络上的网页,依据训练好的网页分类器,对网页进行分类处理;爬虫从信息门户网站出发,使用深度优先的策略来爬取互联网络上的网页;(13)最后,分析网页类与网页类之间的超链接,建立网页类与网页类之间关联,形成索引网络;使用公式(1)来统计网页类与网页类之间的超链接,判断网页类之间的关联是否存在;进一步地,用公式(2)对公式(1)的结果进行归一化处理,给出关联的强度;l(ui,uj)=Σpx∈ui,py∈uji(px,py)|ui|;i≠j;0;i=j.]]>i(px,py)=1ifpxhashyperlinktopy0else---(1)]]>其中,“u”代表网页类;“p”代表网页,“|u|”代表类u中的网页总数;l′(u1,u2)=1Σl(u1,ui)≠0l(u1,ui)*l(u1,u2)---(2)]]>第二步,基于构建好的索引网络,实现关键词的多样化扩展;(21)实现关键词的“兄弟语义”拓展;实现流程如下:“|u|”代表类u中的网页总数,“fu(r′)”表示类u中与输入关键词相匹配的网页的数目,“η”为一个阈值;当条件成立时,把这个类中出现频次较高的词的集合作为关键词的扩展展示给用户;在这种方法中,“η”是一个系统开发者设定的阈值;作为是否对关键词进行拓展的条件进行选择;(22)实现关键词的“关联性”拓展;实现流程方法如下:当时,输入的关键词被定位到网页类“u1”,依据设定的阈值δ,获得所有满足条件l′(u1,u2)>δ的网页类的集合;这些网页类中的特征词将按照网页类与“u1”的关联强度和特征词在该网页类中出现的频次两个因素计算它们的推荐值;推荐值的计算过程如下:首先,对所有关联网页类的关联程度进行归一化处理;然后,把归一化得到的数值作为词语的叠加系数,计算词语的推荐值;推荐值大的特征词优先作为输入关键词的扩展;假设,与网页类“u1”相关联的网页类有m个,那么,词语w的推荐值的计算公式为:rw=l′(u1,u21)Σi=1ml′(u1,u2i)*tfw-21+...+l′(u1,u2m)Σi=1ml′(u1,u2i)*tfw-2m;]]>“tfw‑21”代表词语w在网页类“u21”中的出现频次;(23)实现关键词的“用户个性化”拓展;实现流程方法如下:作为后台预处理工作,首先,依据用户的浏览日志,计算用户的主题偏好;把用户的浏览历史记录投射到所有的类中,得到一个用户的偏好的集合“U”;利用比率公式,计算出用户对每个类的偏好比率;“U(ui)”为用户浏览记录落在类“ui”中的次数,“|U|”为用户浏览记录的总数目;当用户输入一个搜索关键词时,假如关键词被定位到多个网页类“uj1,uj2,…ujn”中;与用户偏好的网页类关联最紧密的类的特征词被推荐的可能性最大;类“uji”中关键词w被推荐的概率值为:rw=(|U(u1)||U|*l′(uji,u1)+...+|U(un)||U|*l′(uji,un))*tfw-uji.]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410004563.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top