[发明专利]将词组索引技术应用在互联网搜索引擎中的方法无效
申请号: | 200710143024.2 | 申请日: | 2007-08-21 |
公开(公告)号: | CN101196898A | 公开(公告)日: | 2008-06-11 |
发明(设计)人: | 邓剑波;戴云川;詹天荣;张潘;高潮;周波;张森;胡显如 | 申请(专利权)人: | 新百丽鞋业(深圳)有限公司;邓亚丽 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518033广东省深圳市福田中心区福华一*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词组 索引 技术 应用 互联网 搜索引擎 中的 方法 | ||
1.将词组索引技术应用在互联网搜索引擎中的方法,其特征在于包括以下几个步骤:
步骤一:自动积累网页信息:
首先,通过网页收集程序,自动地通过超链分析,取得互联网上大量的原始网页文本;在取得这些文本的同时,通过分词程序将该网页文本分解成一个个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键词;然后,利用词组生成程序,以每个关键词为中心,在其前和后分别附加若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于索引的词组集,并按词组长短排序,连同这些词组来源的信息,插入或更新到倒排表的索引文件中;
步骤二、处理用户的查询信息:
首先,由搜索引擎的用户界面接受用户的查询信息;由分词程序将用户的查询信息分解成一个个独立的词语,并标识每个词的词性;再利用词组生成程序,把分词得到的词语以每个实词为中心,在其前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于检索的词组集,并存放到内存中。
步骤三、检索匹配并获得搜索结果:
首先,由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件中的词组进行精确匹配,得到匹配的项,将其对应的网页id检出,依次存放到结果网页集中;然后,对结果集中对应相同网页id的项进行合并,按照与存入结果网页集相同的先后次序遍历结果网页集,取出对应的网页链接以及其它相关信息,从而获得搜索结果。
2.如权利要求1所述的将词组索引技术应用在互联网搜索引擎中的方法,其特征在于:在搜索引擎分析网页文本时,把网页文本切分为若干关键词,并把这些词排列成为词语组合的形式,将其以“词组->网页id1,网页id2,…”这样的倒排表的形式记录到磁盘或内存中的索引文件里。
3.如权利要求1所述的将词组索引技术应用在互联网搜索引擎中的方法,其特征在于:在搜索引擎分析网页文本时,所有的词组生成工作都限于在当前句内,不同句子中包含的关键词不能组合到一起。
4.如权利要求1所述的将词组索引技术应用在互联网搜索引擎中的方法,其特征在于:在搜索引擎处理用户的查询信息时,利用问句模式匹配程序,将用户的查询信息的问句转换成陈述句。
5.如权利要求1所述的将词组索引技术应用在互联网搜索引擎中的方法,其特征在于:将用于索引和检索的词组集,按词组长短排序,长的在前短的在后。
6.如权利要求1所述的将词组索引技术应用在互联网搜索引擎中的方法,其特征在于:在获得索引和检索的词组集的过程中,去除一些无意义的组合。
7.如权利要求6所述的将词组索引技术应用在互联网搜索引擎中的方法,其特征在于:所述的无意义的组合是指虚词组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新百丽鞋业(深圳)有限公司;邓亚丽,未经新百丽鞋业(深圳)有限公司;邓亚丽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710143024.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种塑料及其他混杂垃圾再生处理工艺
- 下一篇:水压即时灭火器