[发明专利]基于双层语义分析的全文检索系统有效
申请号: | 201310061684.1 | 申请日: | 2013-02-27 |
公开(公告)号: | CN103136352A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 张茂元;邹春燕;黄梵;王立;刘强;贺凡黎;陈水银;张红 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 吴晓颖;冯卫平 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双层 语义 分析 全文 检索系统 | ||
技术领域
本发明属于信息检索技术,具体涉及一种基于双层语义分析的全文检索系统。
技术背景
随着互联网信息量持续的指数级增长,人们已经进入了一个信息爆炸的时代。如何在海量级别的数据中准确、高效地找到用户需要的数据,这是一个十分巨大的挑战。搜索引擎的诞生在一定程度上解决了上述问题。搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统。绝大多数的搜索引擎都采用信息检索技术,建立文档倒排索引库,对用户提交关键词或查询语句进行查询,将相关的文档结果返回给用户。
当前的信息检索系统大多是基于关键词(字)匹配和对其简单扩展的检索,还停留在关键词检索的层面上。由于同一个词在不同语句和不同的篇章环境下会有不同的含义,这给信息检索系统理解查询语句和篇章的语义带来了难题。尽管有些信息检索系统采用了扩展检索技术来根据查询词和其扩展词进行检索,提高了检索的查全率。但是因为其尚未采用深层次的语义分析技术,这使得很多相关性很强的检索结果被丢失。另一方面,由于信息检索不能“理解”文档篇章层次的语义,而只是简单地认为文档是一个由词组成的集合,这也导致有些相关性很强的文档由于表述的原因被放置在比较靠后的位置,影响了检索的准确率。正是因为这样,传统的信息检索系统对被检索的文档缺乏语义分析能力,从而不能准确地进行语义检索。
随着信息检索技术向智能化的方向发展,人们希望信息检索系统能够准确理解查询语句和文档的语义,能够给用户提供一个更加精确的返回结果。为了解决传统的信息检索存在的“查询语句的语义信息丢失”和“文档篇章层次语义消歧”问题,提高信息检索的准确率,需要在检索系统中使用句子摘要层次语义分析技术和篇章层次语义分析技术,促进信息检索系统的智能化发展。从句子摘要层次和篇章层次上进行语义分析,将传统的基于关键词层面的检索提升到句子摘要层次和篇章层次语义相结合的双层语义结构上,是实现信息检索系统智能化的一个关键点。
发明内容
本发明的目的在于克服上述现有技术中的不足,提供一种基于双层语义分析的全文检索系统,该系统不仅能够对用户的查询语句进行复述,从句子摘要层次语义上扩展查询语句,还能够从篇章层次上提取文档的潜在语义信息和主题信息,对文档进行具有双层语义分析的全文信息检索。本发明系统具有更高的查准率、查全率和更智能化的特点。
本发明的目的是由以下技术方案实现的:基于双层语义分析的全文检索系统,包括查询信息接收模块、句子摘要层次语义处理模块、检索模块、索引库、索引模块、篇章层次语义处理模块、结果集处理模块和数据服务器。
查询信息接收模块用于接收用户输入的查询信息,并根据用户的选择将查询信息提交给句子摘要层次语义处理模块进行查询句的摘要层次语义处理,或者直接请求检索模块进行搜索服务。
句子摘要层次语义处理模块接收用户输入的查询语句,并依赖数据服务器提供的知识数据词典和规则库对查询语句进行语义处理:首先对查询语句进行摘要化,将查询语句进行分词处理,提取查询关键词,即生成查询语句摘要。它形式上是由句子关键词的组合序列所构成,其语义实质是用户想要查询句子的摘要层次语义。之后对查询语句摘要中的查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句复述过滤规则过滤掉不符合句子摘要层次语义的查询扩展语句,最后将查询语句及其复述语句一起作为查询条件传给检索模块进行搜索。
检索模块为用户提供准确、完备的检索服务。检索模块负责接收查询信息接收模块的指令和句子摘要层次语义处理模块处理之后的查询语句;将查询语句提交给索引库进行查询匹配,返回所有与查询语句匹配的文档信息,并对检索结果集进行排序处理,将排序后的结果集提交给结果集处理模块。
索引库用于存储由索引模块对文本文件及其对应篇章层次语义信息建立的索引;索引库还根据检索模块提交的查询请求在索引中快速检索和排序,并将结果返回给检索模块。
索引模块用于接收数据服务器提供的纯文本文件的内容和相关信息,以及接收篇章层次语义处理模块提供的对应文档的篇章层次语义信息,对文本内容,标题和自定义信息处理得到索引词,利用索引词及其对应的语义信息和文档相关信息建立索引。
篇章层次语义处理模块接收数据服务器提供的文本文件集和相关信息,通过对其进行篇章层次语义分析,提取对应文档的篇章层次语义信息,并将其提交给索引模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310061684.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可提升式曝气器
- 下一篇:一种采用复合生物基质载体的河流净化新型生态浮床