[发明专利]一种关键词的多样化拓展方法有效
申请号: | 201410004563.8 | 申请日: | 2014-01-06 |
公开(公告)号: | CN103744956B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海天协和诚知识产权代理事务所31216 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 多样化 拓展 方法 | ||
1.一种关键词的多样化扩展方法,用于辅助网络信息搜索;其特征在于:
(1)首先,把网页类别看作一个主题;依据选定的分类体系,把网页进行分类;对网页类与网页类之间的超链接进行统计、归一化,构建网页类与网页类之间的关联,形成基于网页分类的索引网络;
(2)其次,基于构建的索引网络,实现关键词的多样化扩展;
主要包含关键词的“兄弟语义”扩展、关键词的“关联性”扩展和关键词的“用户个性化”扩展三种关键词扩展方法;
所述关键词,是指用户用来搜索信息时,所输入的关键词;
所述关键词的“兄弟语义”扩展,是指扩展出与关键词同属于一个主题的其它特征词;
所述关键词的“关联性”拓展,是指扩展出与关键词具有某种现实关联的其它特征词;
所述关键词的“用户个性化”扩展,是指针对歧义关键词,依据用户的历史日志,预估用户正在查找的关键词语义,并推荐出与选定语义相关的其它特征词。
2.如权利要求1所述的关键词的多样化扩展方法,其特征在于:
第一步,依据互联网络上面的超链接,构建基于网页分类的索引网络;
(1)首先,选定网页分类体系及其训练集合,使用朴素贝叶斯算法,完成网页类的特征向量的训练;具体地,借助dmoz人工分类目录的中文部分,人工选取分类目录中的300个类,把它们包含的网页作为训练集;训练完成之后,使用WorldNet,对网页类的特征词进行近义词拓展,获得描述更全面的特征向量;(2)然后,爬取互联网络上的网页,依据训练好的网页分类器,对网页进行分类处理;爬虫从信息门户网站出发,使用深度优先的策略来爬取互联网络上的网页;(3)最后,分析网页类与网页类之间的超链接,建立网页类与网页类之间关联,形成索引网络;
使用公式(1)来统计网页类与网页类之间的超链接,判断网页类之间的关联是否存在;进一步地,用公式(2)对公式(1)的结果进行归一化处理,给出关联的强度;
(1)
其中,“u”代表两个网页类;“p”代表网页,“|u|”代表类u中的网页总数;
(2)
第二步,基于构建好的索引网络,实现关键词的多样化扩展;
(1)实现关键词的“兄弟语义”拓展
实现流程如下:
“|u|”代表类u中的网页总数,“”表示类u中与输入关键词相匹配的网页的数目,“”为一个阈值;当条件成立时,把这个类中出现频次较高的词的集合作为关键词的扩展展示给用户;在这种方法中,“”是一个系统开发者设定的阈值;作为是否对关键词进行拓展的条件进行选择;
(2)实现关键词的“关联性”拓展
实现流程方法如下:
当时,输入的关键词被定位到网页类“u1”,依据设定的阈值,获得所有满足条件的网页类的集合;这些网页类中的特征词将按照网页类与“u1”的关联强度和特征词在该网页类中出现的频次两个因素计算它们的推荐值;推荐系数的计算过程如下:首先,对所有关联网页类的关联程度进行归一化处理;然后,把归一化得到的数值作为词语的叠加系数,计算词语的推荐值;推荐值大的特征词优先作为输入关键词的扩展;假设,与网页类“u1”相关联的网页类有m个,那么,词语w的推荐值得计算公示为:;“” 代表词语w在网页类“u21”中的出现频次;
(3)实现关键词的“用户个性化”拓展
实现流程方法如下:
作为后台预处理工作,首先,依据用户的浏览日志,计算用户的主题偏好;把用户的浏览历史记录投射到所有的类中,得到一个用户的偏好的集合“U”;利用比率公式,计算出用户对每个类的偏好比率;;“”为用户浏览记录落在类“ui”中的次数,“”为用户浏览记录的总数目;
当用户输入一个搜索关键词时,假如关键词被定位到多个网页类“uj1,uj2,…ujn”中;与用户偏好的网页类关联最紧密的类的特征词被推荐的可能性最大;类 “uji”中关键词w被推荐的概率值为:
。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410004563.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:人造食品壳体、其除去方法及其制造方法
- 下一篇:超声波增强种子萌芽系统