[发明专利]一种基于信息粒度的信息检索优化方法在审
申请号: | 201410550066.8 | 申请日: | 2014-10-16 |
公开(公告)号: | CN104376044A | 公开(公告)日: | 2015-02-25 |
发明(设计)人: | 傅涛;傅德胜;经正俊;孙文静 | 申请(专利权)人: | 江苏博智软件科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 224000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 粒度 检索 优化 方法 | ||
技术领域:
本发明涉及优化信息检索技术领域,具体涉及一种基于信息粒度的信息检索优化方法。
背景技术:
信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search或Information Seek)。
信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
由信息检索原理可知,信息的存储是实现信息检索的基础。这里要存储的信息不仅包括原始文档数据,还包括图片、视频和音频等,首先要将这些原始信息进行计算机语言的转换,并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。
“粒度”(granularity)指的是信息单元的相对大小或粗糙程度。
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。
随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。
主题检索是信息检索技术研究领域的一个缺点,但是使用现有的算法,在大数据量检索过程中,检索结果往往不尽如人意,一方面是检索结果与用户期望值相差很大;二是检索时间随信息粒度的细化急剧增加。
发明内容:
本发明的目的是提供一种基于信息粒度的信息检索优化方法,它在进行海量文本的检索过程中,通过内容主题额初分可以有效的消除无关内容的干扰,加快了查找速度。
为了解决背景技术所存在的问题,本发明是采用以下技术方案:它利用内容识别和主题识别在粗细不同粒度之下进行计算的特性,设计了一种新的主题识别模型,步骤如下:1、主题关键字扩展,形成一个N层的主题识别树;2、根据知网系统判断文档的内容与主题关键字扩展集合是否一致;3、在步骤2中判断文档所涉及的事件主题是否一致;4、提取指定类别的训练文本集中所有句子与文本标题、子标题,生成特定类别的模式实例集合;5、使用“知网”系统实现模式实例集合中个实例的词或词组序列与概念的映射;6、广度优先遍历图,生成模式集合;7、根据模式集合中的模式元素对训练集中不同事件主题的激励程度,将模式集分为若干个对应不同事件主题的模式子集。
本发明工作原理:模式集合的质量与内容、主题识别算法的精度相通,借用自动新型抽取技术,以及其学习的方式实现基于模式集的自动生成,很好的避免了在涉及开放文本集合时的模式扩展问题,特定事件主题的文本对应着最细的粒度世界,是事件主题粒度世界的细化,先进行内容主题识别,再进行事件主题识别,不仅可以利用传统主题识别的知识和经验以提高主题识别效率,而且可以限定事件主题判别范围,从而大大提高事件主题的精确度。
本发明具有以下有益效果:它基于机器的模式自动抽取所得特征可能再某些方面要优于人类经验所定的特征,在进行海量文本的检索过程中,通过内容主题额初分可以有效的消除无关内容的干扰,加快了查找速度。
具体实施方式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏博智软件科技有限公司,未经江苏博智软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410550066.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置