[发明专利]基于相关词语语义分析的全文检索系统有效
申请号: | 201410061245.5 | 申请日: | 2014-02-24 |
公开(公告)号: | CN103838833B | 公开(公告)日: | 2017-03-15 |
发明(设计)人: | 张茂元;邹春燕;陈水银;张红;管益龙;贺凡黎;华丽君;罗贤亮;吴德钰;袁芳;孟琼瑶 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉天力专利事务所42208 | 代理人: | 吴晓颖 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相关 词语 语义 分析 全文 检索系统 | ||
技术领域
本发明属于信息检索技术,具体涉及一种基于相关词语语义分析的全文检索系统。
背景技术
随着社会的快速发展,科学技术的不断进步,人们所能接触的信息也成几何级的增长,这些信息不断累积便形成了我们熟知的“海量数据”。那么如何在海量数据中准确而快速地检索到用户需要的信息成为了互联网信息时代所面临的机遇和挑战,搜索引擎的出现在一定程度上解决了这个问题。传统的搜索引擎主要采用的技术是对需要检索的文档集进行预处理如中文分词,去停用词等,并对文档集建立倒排索引,然后对用户提交的查询词或者查询语句进行检索,并通过计算它们与文档之间的相似度来排序检索到的文档,最后将结果返回给用户。
一直以来,搜索引擎在用户提交检索请求的时候只是把用户输入的查询语句和文档集进行一个简单的匹配,然后以简单的统计学方法来对文档集进行检索排序。但这远远达不到用户的需求,也不能很好的挖掘出文档中每个词对文档主题的贡献度,尽管有些搜索引擎可以根据用户需求进行简单的扩展或者个性化的检索。但是这些都没有挖掘出文档中深层次的语义信息,这使得很多在字面形式上和查询无关但是在语义上和查询语句很紧密的文档没有被检索出来,从而造成了搜索引擎检索的不全面性和不完整性。同样,只是仅仅从字面形式来对用户输入的查询语句和文档进行匹配使得用户得到的结果往往不是自己所需要的。尤其是汉语博大精深,很多字或者词具有多种含义,在不同的语境中表达着不同的含义,而且有些含义差别很大,以上这些都是搜索引擎在搜索时遇到的瓶颈。
随着信息检索技术的发展,为了很好的满足用户的需求,简单的从统计的角度来对查询语句进行匹配显然已经不能满足时代的需求了。人们需要搜索引擎能够智能化地去理解用户查询语句的内在含义,同时也能够充分地去挖掘文档中词语对文档主题的贡献度,从语义贡献度的角度对查询语句和文档进行智能化地匹配,这样能够给用户一个更准确、更全面和更人性化的查询结果。为了提高搜索引擎的检索性能,我们在检索系统中采用基于相关词语的概念语义分析方法和基于相关词语的主题语义分析方法,将传统的基于关键字或者词匹配的检索系统提升到基于相关词语的语义分析基础上,这是提高检索准确率的关键之处。
发明内容
本发明是为了克服上面所说的传统搜索引擎的不足,提出一种基于相关词语语义分析的全文检索系统。该系统采用了基于相关词语的概念语义分析方法和基于相关词语的主题语义分析方法,能够准确分析和计算相关词语与语义标签之间的语义相关量化关系,这里语义标签是指代语义中的一个知识单元,也即概念。而且该系统还能够得到相关词语对文档主题的贡献度,从而使搜索引擎能很好地理解文档的语义和查询语句的语义而不是简单地统计词频和查询匹配,进而使搜索引擎更准确地理解用户的需求,返回给用户更加全面、智能的检索结果。该系统是对传统互联网搜索引擎的改进,能够对文档进行基于相关词语的概念语义分析和基于相关词语的主题语义分析,从而使用户可得到更准确、更全面、更智能化的查询结果。
本发明是由以下技术方案实现的:基于相关词语语义分析的全文检索系统,本系统包括查询信息接收模块、基于相关词语的概念语义分析模块、语义知识库模块、检索模块、索引库、索引模块、基于相关词语的主题语义分析模块、结果集处理模块和数据服务器。
查询信息接收模块用于接收用户输入的查询语句,对查询语句进行中文分词和去停用词处理之后,将其提交给基于相关词语的概念语义分析模块并且提交给检索模块进行检索服务。
基于相关词语的概念语义分析模块采用基于相关词语的概念语义分析方法,得到词语之间的语义相关量化关系,并提交给语义知识库模块。
语义知识库模块存储词语及其相关词群和贡献度信息。从查询信息接收模块中得到用户输入的查询词,在语义知识库中检索,将查询词对应的相关词群及贡献度返回给基于相关词语的概念语义分析模块。
检索模块为用户提供检索服务。检索模块负责接收查询信息接收模块的指令,将查询语句提交给索引库进行查询匹配、返回所有与查询语句匹配的文档信息,并对检索结果集进行排序处理,将排序后的结果集提交给结果集处理模块。
索引库存储由索引模块对文档建立的索引,索引库还根据检索模块提交的查询请求在索引中快速检索,并将结果返回给检索模块。
索引模块接收数据服务器提供的文档,对文档内容,标题和自定义信息进行中文分词和去停用词处理得到索引词,利用索引词和文档相关信息建立索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410061245.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烟道臭氧分布器、其布置方式及应用
- 下一篇:一种模型飞机