[发明专利]基于双层语义分析的全文检索系统有效
申请号: | 201310061684.1 | 申请日: | 2013-02-27 |
公开(公告)号: | CN103136352A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 张茂元;邹春燕;黄梵;王立;刘强;贺凡黎;陈水银;张红 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 吴晓颖;冯卫平 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双层 语义 分析 全文 检索系统 | ||
1.一种基于双层语义分析的全文检索系统,其特征在于:该系统包括查询信息接收模块(100)、句子摘要层次语义处理模块(200)、检索模块(300)、索引库(400)、索引模块(500)、篇章层次语义处理模块(600)、结果集处理模块(700)和数据服务器(800):
查询信息接收模块(100)用于接收用户输入的查询信息,并根据用户的选择将查询信息提交给句子摘要层次语义处理模块(200)进行查询句的摘要层次语义处理,或者直接请求检索模块(300)进行检索服务;
句子摘要层次语义处理模块(200)接收用户输入的查询语句,并依赖数据服务器(800)提供的知识数据词典和规则库对查询语句进行语义处理:首先对查询语句进行摘要化,将查询语句进行分词处理,提取查询关键词;之后对查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句的复述过滤规则过滤掉不符合句子摘要层次语义的查询扩展语句,最后将查询语句及其扩展语句一起提交给检索模块(300)进行检索;
检索模块(300)为用户提供检索系统的使用界面,并提供准确、完备的检索服务;检索模块(300)负责接收查询信息接收模块(100)的指令和句子摘要层次语义处理模块(200)处理之后的结果;根据查询内容在索引库(400)中进行查询匹配,返回和查询语句匹配的所有文档信息,根据系统的文档打分算法,对返回的所有文档进行排序,最后将排序后的结果集递交给结果集处理模块(700);
索引库(400)用于存储由索引模块(500)对文本文件及其对应篇章层次语义信息建立的索引;索引库(400)还根据检索模块(300)提交的查询请求在索引中快速检索和排序,并返回检索模块(300)所提交请求的对应结果;
索引模块(500)用于接收数据服务器(800)提供的文本文件集和相关信息,以及接收篇章层次语义处理模块(600)提供的对应文档中的篇章层次语义信息,对文本内容,标题和自定义信息处理得到索引词,利用索引词及其对应的语义信息和文档相关信息建立索引;
篇章层次语义处理模块(600)接收数据服务器(800)提供的文本文件集和相关信息,通过对其进行篇章层次语义分析,提取文档的篇章层次语义信息,并将其提交给索引模块(500);
结果集处理模块(700)用于接收来自检索模块(300)的结果集,并根据索引库(400)的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理;
数据服务器(800)用于存储知识数据词典、规则库和文本文件集。
2.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述句子摘要层次语义处理模块(200)包括查询语句摘要模块(210)、查询复述模块(220);
查询语句摘要模块(210)采用最大逆向匹配分词方法对用户输入的查询语句进行切分,再通过句法分析得到句法结构树,根据词性和词义去掉对查询句语义相关度不高的词,得到查询语句的摘要;
查询复述模块(220)首先对查询语句中查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句复述规则过滤掉不符合句子摘要层次语义的查询扩展语句,得到其复述语句,最后将查询语句及其复述语句一起作为查询条件传给检索模块(300);其中,复述规则选取了四个方面的特征,词性的特征、互信息特征、基于Hownet的语义相似度特征和基于词义消歧的相似度特征。
3.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述检索模块(300)包括查询模块(310)和排序模块(320);
查询模块(310)在索引库(400)中查找所有匹配的文档信息,从匹配的文档信息中选择出满足查询要求的那部分文档信息作为结果集,并将结果集发送给排序模块(320);
排序模块(320)用于对来自查询模块(310)的结果集进行排序,根据查询词在篇章层次的潜在语义信息量、在文档中的出现频率,以及文档长度和文档的反转频率因素进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310061684.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:可提升式曝气器
- 下一篇:一种采用复合生物基质载体的河流净化新型生态浮床