[发明专利]一种查询数据处理方法和装置在审
申请号: | 201510783037.0 | 申请日: | 2015-11-16 |
公开(公告)号: | CN105354321A | 公开(公告)日: | 2016-02-24 |
发明(设计)人: | 赵欣;何明杰;马林;张兴强;庞以新;王海潮;章梦;何燕萍;王寻;胡建波 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 温旭;郝传鑫 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 查询 数据处理 方法 装置 | ||
技术领域
本发明涉及数据处理领域,更为具体而言,涉及一种查询数据处理方法和系统。
背景技术
随着互联网相关技术的发展,查询已经成为大型网站或者应用所必不可少的功能之一。而在查询的过程中,最重要的一个环节就是对用户输入的查询的检索,也就是说,获取与用户的查询最相关的检索结果。目前,计算查询与检索结果文本之间相关性的方法主要包括TF-IDF相关性度量和LCS相关性度量。
基于TF-IDF的相关性度量方法,TF(TermFrequency),即词频,是指一个文本中关键词出现的次数除以文本中的总词数。由于一个查询字符串可能由若干个词语组成,那么对于这样的查询字符串而言,给定一个文本,其在该文本中的TF值为构成其的各个词语的TF值之和。IDF(InverseDocumentFrequency),即逆文本频率指数,其定义如下:IDF=log(D/Dw),其中,D是全部文本数,Dw是关键词w出现过的文本的数目。可以看出,IDF值的大小反比于Dw的大小,也就是说某个关键词出现在越多的文本当中,则说明该词的罕见性,或者说专业性越低,则IDF的值越小。基于LCS的计算相关性的方法,LCS即最长公共子序列,该方法通过计算查询串与文本之间的最长公共子序列,并以最长公共子序列的长度作为度量相关性的标准。
由上述可知,基于TF-IDF相关性的分析主要侧重各个词语在文本中出现的频次以及各个词语在整个文本集合中的专业性,而基于LCS相关性的分析也是着重考察查询字符串与文本之间的在字面上的相似。因此,在查询字符串与检索文本的相关性分析方面,亟需从新的角度对查询字符串和检索文本进行相关性分析的方案。
发明内容
为解决上述技术问题,本发明提供了一种查询数据处理方法和装置。
根据本发明实施方式的第一方面,提供了一种查询数据处理方法,该方法可包括:将用户输入的查询字符串进行分词得到词语数组,根据所述词语数组中各词语在检索文本中的出现信息设置所述词语数组的每个位置上词语的权值,其中,所述出现信息包括:在所述检索文本中是否出现以及在所述检索文本中出现的位置,将所述各词语的权值累加以确定所述查询字符串和所述检索文本之间的相关性。
在本发明的一些实施方式中,所述根据所述词语数组中各词语在检索文本中的出现信息设置所述词语数组的每个位置上词语的权值包括:根据所述词语数组中位于头部的头部词语在检索文本中的发现信息设置所述头部词语的开头权值,在所述出现信息为未出现在所述检索文本的情况下,所述头部词语的开头权值为零,在所述出现信息为出现在所述检索文本的情况下,所述头部词语的开头权值设置为与出现在所述检索文本中的头部词语离所述检索文本开头的距离成反比。
在本发明的一些实施方式中,所述根据所述词语数组中各词语在检索文本中的出现信息设置所述词语数组的每个位置上词语的权值包括:根据所述词语数组中位于尾部的尾部词语在检索文本中的发现信息设置所述尾部词语的结尾权值,在所述出现信息为未出现在所述检索文本的情况下,所述尾部词语的结尾权值为零,在所述出现信息为出现在所述检索文本的情况下,所述尾部词语的结尾权值设置为与出现在所述检索文本中的尾部词语离所述检索文本结尾的距离成反比。
在本发明的一些实施方式中,所述根据所述词语数组中各词语在检索文本中的出现信息设置所述词语数组的每个位置上词语的权值包括:根据所述词语数组中位于第一位置的第一词语和位于第二位置的第二词语在检索文本中的发现信息设置所述第一词语和所述第二词语的转移权值,其中,所述第一位置位于所述第二位置的前面,在所述第一词语和所述第二词语的出现信息为没有同时出现在所述检索文本的情况下,所述第一词语和所述第二词语的转移权值为零,在所述第一词语和所述第二词语的出现信息为同时出现在所述检索文本的情况下,所述第一词语和所述第二词语的转移权值设置为与所述第一词语和所述第二词语在所述检索文本中出现的位置之间的距离成反比。
在本发明的一些实施方式中,所述根据所述词语数组中各词语在检索文本中的出现信息设置所述词语数组的每个位置上词语的权值包括:根据所述词语数组中各词语在检索文本中的出现信息设置所述词语数组的每个位置上词语的存在权值,在词语的出现信息为在检索文本中出现的情况下,所述词语的存在权值设置为非零,在词语的出现信息为未出现在检索文本中的情况下,所述词语的存在权值为零。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510783037.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种乙烯溶剂吸收脱乙炔装置
- 下一篇:酒店的数据库的更新方法和更新系统