[发明专利]将词组索引技术应用在互联网搜索引擎中的方法无效

专利信息
申请号: 200710143024.2 申请日: 2007-08-21
公开(公告)号: CN101196898A 公开(公告)日: 2008-06-11
发明(设计)人: 邓剑波;戴云川;詹天荣;张潘;高潮;周波;张森;胡显如 申请(专利权)人: 新百丽鞋业(深圳)有限公司;邓亚丽
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 518033广东省深圳市福田中心区福华一*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明是将词组索引技术应用到互联网搜索引擎中,把网页文件中的句子分解成词语,以每个关键词为中心词,在其前和后附加上若干别的词组成索引词组集,以词组为单位生成网页内容的索引文件;将用户提交的查询信息,利用分词程序提取出查询信息中的实词,将这些词进行所有合理和可能的组合,得到用于检索的词组集;由匹配程序将用于检索的词组集中的词组依次与索引文件中的词组进行精确匹配,获得搜索结果;由于词组在表达语意方面要强于单个的词,使得搜索的结果更精确的体现查询者的可能意图。
搜索关键词: 词组 索引 技术 应用 互联网 搜索引擎 中的 方法
【主权项】:
1.将词组索引技术应用在互联网搜索引擎中的方法,其特征在于包括以下几个步骤:步骤一:自动积累网页信息:首先,通过网页收集程序,自动地通过超链分析,取得互联网上大量的原始网页文本;在取得这些文本的同时,通过分词程序将该网页文本分解成一个个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键词;然后,利用词组生成程序,以每个关键词为中心,在其前和后分别附加若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于索引的词组集,并按词组长短排序,连同这些词组来源的信息,插入或更新到倒排表的索引文件中;步骤二、处理用户的查询信息:首先,由搜索引擎的用户界面接受用户的查询信息;由分词程序将用户的查询信息分解成一个个独立的词语,并标识每个词的词性;再利用词组生成程序,把分词得到的词语以每个实词为中心,在其前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于检索的词组集,并存放到内存中。步骤三、检索匹配并获得搜索结果:首先,由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件中的词组进行精确匹配,得到匹配的项,将其对应的网页id检出,依次存放到结果网页集中;然后,对结果集中对应相同网页id的项进行合并,按照与存入结果网页集相同的先后次序遍历结果网页集,取出对应的网页链接以及其它相关信息,从而获得搜索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新百丽鞋业(深圳)有限公司;邓亚丽,未经新百丽鞋业(深圳)有限公司;邓亚丽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200710143024.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top