[发明专利]一种属性搜索方法无效
申请号: | 201110433468.6 | 申请日: | 2011-12-22 |
公开(公告)号: | CN102411630A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 汤鲲;史波良;宋波 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210019 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 属性 搜索 方法 | ||
技术领域
本专利申请公开一种信息技术领域的信息检索技术,特别是对检索目标的相关属性进行检索的方法。
背景技术
商业化的搜索引擎能够对很多文字信息进行检索,但是限于对自然语言理解过程的处理能力,目前的商业化搜索引擎都只是停留在文字符号层面,即使是有一些经过语义处理的检索过程,都只是进行简单的语义转化后的关联搜索。比如你想搜索去年6月份上映的电影,输入的关键词不一定能够被搜索引擎识别和重构为其搜索语义的场景,时间不是被翻译为2010年6月1日到6月30日,而是翻译为几个符号后,再进行相关的检索和归并。而如果你想检索某个论坛板块的很活跃的用户,可能出来的并不是你想要的东西。
假设你在检索你的本地邮件或者WEB邮件,你想在你众多的邮件里面找到一个附件大于1M的邮件,或者附件中含有某种类型的文件,或者检索附件数量大于某一个数字的邮件,或者其他可以用检索目标的属性来描述的东西,比如发给某个目标客户的邮件,出现在“密送”或者“抄送”里的某个客户等等,这些属性带有某种使用者的行为特征,而你作为使用者对这些行为特征可能比关键词特征更熟悉或更容易记住。而常规的商业化搜索引擎提供的检索能力都不足以描述这些行为,只支持字符匹配而不是语义匹配。比如你在在检索你的聊天信息的时候,可能会搜索聊天信息里面的时间段,没有搜索引擎的话你只能手动上下翻页,但是搜索引擎如果没有对聊天内容清单里面的各种时间信息进行特别处理的话,也无法检索昨天早上的聊天内容之类的模糊检索。
因此能够支持待检索目标的相关属性检索,能够解决一部分语义检索的问题,还能够解决一部分行为检索的问题。
一般的商业化搜索引擎会对收集到的数据进行解析、过滤、净文本信息提取等预处理,再对净文本建立索引以供检索。净文本和索引都会保存在本地或者分布式的系统上,当用户进行关键词检索的时候,搜索引擎会在索引中对关键词进行检索,返回含有该检索操作中关键词的净文本内容及相关的URI。
发明内容
本专利申请中的搜索引擎在进行预处理的时候,会对收集到的数据的相关属性进行详细的提取,比如该数据的出现时间、有关联的各种对象等属性信息。对于论坛的帖子,会对帖子正文内容和标题进行提取外,还会对帖子的出现时间、浏览量、跟帖数、活跃用户等进行提取;对于新闻、博客、微博、视频等也做类似的处理,视频虽然不能对视频内容作检索,但是可以预处理视频的标题和评论等内容;在处理邮件的时候,对邮件的发信时间、收信时间、发件人、抄送人、密送人、收件人、附件的数量、附件的文件名/大小、属于垃圾邮件、伪造邮件等信息进行提取;对聊天的各个帐号、内容/出现时间、群的名称等进行提取,等等。凡是可以用来进行属性检索和行为特征描述的各种属性信息都将其提取出来。然后提取净文本。
在完成预处理后,按照正常建立索引的过程对净文本进行处理。然后将净文本附加前面提取的各种属性,以特殊的词汇分隔以便于净文本与属性的分离;然后再按照常规净文本的保存方法保存到本地或者分布式系统里,索引则按照常规索引的保存方法保持到本地或者分布式系统里。
在用户进行关键词检索的时候,设置了属性检索条件以后,搜索引擎会对索引中的关键词进行检索,在返回含有该检索操作中关键词的净文本内容及相关的URI前,先对净文本后面依附的属性进行加载和判断,符合全部属性检索条件的再返回其净文本内容和URI,实现属性检索和行为检索的目标。
或者简要地说,通过对待检索的目标进行充分的属性提取后,将其与待检索目标的净文本混合,存放在系统的存储中。在检索关键词并命中净文本+属性以后,对命中的净文本的属性进行加载和判断,只返回满足所有属性检索条件的净文本的URI及包含关键词位置信息的净文本。
对检索结果如返回的URI和文本信息等的改变均不构成对本申请中方案的核心内容的实质性改变。对属性内容、提取方法或者属性条件判断方法的改变均不构成对本申请中方案的核心内容的实质性改变。对净文本、属性、索引文件的存放方法/加载方法,以及净文本与属性的混合、分离、属性加载等方法的改变均不构成对本申请中方案的核心内容的实质性改变。对净文本与属性进行分开存放、同步加载的方法,其本质上还是与本方法的上作原理一致,还导致了两次IO,性能可能会下降,不构成对本申请中方案的核心内容的实质性改变。
附图说明
附图1为建立索引和检索过程示意图。
具体实施方式
如图1所示,本申请的属性检索过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110433468.6/2.html,转载请声明来源钻瓜专利网。