[发明专利]面向用户的信息搜索引擎系统及方法有效

专利信息
申请号: 201210433731.6 申请日: 2012-10-31
公开(公告)号: CN102930022A 公开(公告)日: 2013-02-13
发明(设计)人: 贾倩;张巍;杨秋皓;许怡婷;张冶;王志勇;章乐平;杨玉堃;毕经元;王立伟;杜俊鹏;褚厚斌 申请(专利权)人: 中国运载火箭技术研究院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中国航天科技专利中心 11009 代理人: 安丽
地址: 100076 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 面向用户的信息搜索引擎系统及方法,由8个模块组成:搜索词推送模块、用户发起搜索模块、用户关注点更新模块、初次搜索模块、用户兴趣推断模块、用户关注结果分词模块、搜索词重构模块以及二次搜索模块。该方法通过对用户可选搜索词解析并推送、用户发起搜索、更新用户关注点、执行初次搜索、推断用户兴趣、对用户关注结果分词、对搜索词重构以及执行二次搜索8个过程实现,使该系统具有查询范围全、查询精度高的优点。此外,用户通过该系统可实现搜索词的选择输入、自主排序,并可通过交互操作提高后续查询结果的精准性,为用户执行信息搜索提供了一种灵活、便利、智能的交互接口。
搜索关键词: 面向 用户 信息 搜索引擎 系统 方法
【主权项】:
面向用户的信息搜索引擎系统,其特征在于所述信息搜索引擎系统由客户端和服务器构成,在服务器端部署搜索词推送模块、用户关注点更新模块、初次搜索模块、用户兴趣推断模块、搜索词重构查块及二次搜索模块;客户端主机通过B/S方式与服务器进行交互,在客户口端部署用户发起搜索模块、初次搜索模块;其中上述各模块实现如下:搜索词推送模块:服务器根据当前用户的身份信息,查询用户关注库,所述用户关注库由本人历史关注点以及同兴趣用户历史关注点两部分组成;所述的本人历史关注点以及同兴趣用户历史关注点均由历史搜索词和搜索词的使用频率组成;首先解析用户本人历史搜索词,按照搜索词使用频率由高到低进行排序,选择使用频率超过设定阈值的历史搜索词,按序写入用户本人历史关注词集合,即searchVoc_past集,之后遍历searchVoc_past集,获取各历史搜索词除当前用户之外的其他历史用户,写入同兴趣用户集合,即user_sameInt集,依次获取user_sameInt集中各用户的历史搜索词,分别查询各历史搜索词的使用频率,按照使用频率由高到低写入同兴趣用户历史关注词集合,即searchVoc_past_other集,对searchVoc_past_other集遍历,在避免重复的前提下,将其中的词顺序加入searchVoc_past集,根据searchVoc_past集形成搜索词推送列表,输出至客户端,供用户发起搜索模块调用;用户发起搜索模块:接收搜索词推送模块输出的搜索词推送列表,解析其中的搜索词,按顺序显示在客户端,并提供复选按钮及排序按钮,允许用户对各搜索词进行选择或取消,以及设置搜索词的优先级,根据用户的选择结果动态更改搜索词集合,同时支持用户对搜索词集合进行人工补充或修改,以形成最终提交的搜索申请,供用户关注点更新模块以及初次搜索模块调用;用户关注点更新模块:接收搜索申请,对用户发起的搜索行为进行记录,所述搜索行为由用户输入的搜索词及搜索词的顺序组成,将用户输入的搜索词按序写入搜索词用户选择集合,即searchVoc_select集,遍历searchVoc_select 集,判断其中的搜索词是否存在于用户关注库中,如果已存在,则更新该词当前使用频率,否则,则将该词写入用户关注库中的本人历史关注点集合,同时设置当前使用频率为初始值;初次搜索模块:根据用户发起的搜索行为执行初次搜索,首先按照搜索词的优先级对searchVoc_select集中的全部搜索词进行全排列组合,将排列组合后的searchVoc_select集记作searchVoc_select重组集,其中包括独立词及组合词,遍历searchVoc_select重组集,依次查询与其中各个词相匹配的搜索结果,与独立词匹配即表示搜索结果中包含该独立词,与组合词匹配即表示搜索结果包含每一个组成要素,对于每一个搜索词的匹配结果,统计全文中与搜索词的匹配频率,按匹配频率由高到低排序,按searchVoc_select重组集的词序将所有匹配的搜索结果列表组合,写入初始搜索结果集合,即result_first集,所述的搜索结果列表由结果信息标题、摘要、来源组成,其中,摘要为结果全文中与搜索词匹配最多的一段文字,将形成的result_first集输出至客户端,供用户查看;用户兴趣推断模块:记录用户对result_first集的操作,将用户筛选行为写入初次搜索结果用户筛选集,即result_userSelect集;所述的用户筛选行为由用户选择结果ID、结果点击次数以及结果查看时间组成;对于各条结果,对“结果点击次数x结果查看时间”进行求和计算,得到用户对各条结果的关注程度,按照关注程度值从高到低进行排序,分别解析出各结果的摘要信息,将摘要信息按顺序写入用户筛选结果摘要集,即result_abstract集,输出至用户关注结果分词模块;用户关注结果分词模块:遍历result_abstract集,依次解析出用户关注结果的摘要信息,对照字典集,采用逆向匹配算法分词,所述的字典集为哈希表,即HashMap组成的数组,数组长度为字典中作为首字的汉字个数,数组索引为该汉字的区位码,数组各元素为该首字对应的所有词组成的HashMap,其中词本身作为HashMap的key,词频作为HashMap的value,分词完毕后,对照无义词库,将无义词剔除,将各篇摘要的分词结果作为独立数组,写入摘要分词 结果离散集,即abstract_cut_apart集,同时提取出分词结果的并集,即不存在重复词的最大集合,写入摘要分词结果组合集,即abstract_cut_unit集,将abstract_cut_apart集和abstract_cut_unit集两个集合均输出至搜索词重构模块;搜索词重构模块:遍历abstract_cut_unitt集中的词语,比对abstract_cut_apart集,解析各词语在不同摘要中出现的次数,所述的各词语在不同摘要中出现的次数不包括该词语在同一摘要中出现的次数,将出现次数与摘要篇数相同的词语,即各篇摘要中均出现的词语汇集并写入摘要分词结果交集,即abstract_rcut_same集,对照中文分类主题词表,分析abstract_cut_same集,对于与其中词语具有用代关系及相关关系的词,写入摘要分词结果重组集,即abstract_cut_reorg集,将abstract_cut_same集及abstract_cut_reorg集两个集合均输出至二次搜索模块;二次搜索模块:首先解析abstract_cut_same集,按照初次搜索模块中的方法对集合中的词进行排列组合,遍历absrtact_cut_same集中的各搜索词,依次获取全文中与之匹配的文档、标题中与之匹配的图片以及视频,其中,对组合词而言,与之匹配表示满足其中每一个组成要素,之后,解析abstract_cut_reorg集,获取与其中每个独立词匹配的文档、图片以及视频,将所有的文档文件按搜索顺序写入二次搜索文档结果集,即result_second_doc集,将所有的图片文件按搜索顺序写入二次搜索图片结果集,即result_second_image集,将所有的视频文件按搜索顺序写入二次搜索视频结果集,即result_second_vedio集,返回result_second_doc集、result_second_image集及result_second_vedio集三个集合至客户端,按类别将搜索结果展示给用户,提示用户本次搜索结果能够更符合用户意图,供用户深入查看。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国运载火箭技术研究院,未经中国运载火箭技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210433731.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top