[发明专利]确定词信息熵及利用词信息熵的搜索方法及其设备有效
申请号: | 201010120564.0 | 申请日: | 2010-03-08 |
公开(公告)号: | CN102193929A | 公开(公告)日: | 2011-09-21 |
发明(设计)人: | 金凯民 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 信息 利用 搜索 方法 及其 设备 | ||
技术领域
本申请涉及计算机网络领域,尤其涉及一种确定词信息熵的方法及设备,以及利用确定的词信息熵进行搜索的方法及设备。
背景技术
搜索请求(Query)是搜索引擎场景下特有的短文本,用户通过搜索请求描述想要检索的信息,搜索引擎通过搜索请求中描述的信息检索数据库,返回用户想要的结果。用户发起的一次搜索请求平均由2.4个词语组成(例如:真丝连衣裙、直板手机),一般情况下用户使用自然文本作为搜索请求,而不是使用与、或、非之类的语句,因此搜索引擎根据接收到的搜索请求进行检索时,需要根据搜索请求中的信息量确定用户的意图进行搜索,并将搜索的结果返回给用户。
词语信息量的度量即为词信息熵,一条信息的信息量大小与该信息的信息量是否准确有直接的关系。例如:如果要搞清楚一件不确定的事,或是对相关信息一无所知的事,就需要了解大量的信息;相反,如果已经对某件事已经有了较多的了解,则不需要太多的信息就能搞清楚。从这个角度出发,可以认为信息量的度量就等于不确定性的多少。因此,利用词信息熵的概念来确定搜索请求中的信息量,进而根据搜索请求中的信息量确定用户的真实意图并进行搜索。
目前计算词信息熵的方式是利用公式TF/IDF实现的,其中,TF表示一个词语在文档集合中出现的总次数,IDF表示文档集合中出现该词语的文档的个数。针对某一个词语计算出的TF/IDF值越大,表示该词语越重要,反之,则表示该词语越不重要。
上述通过TF/IDF公式计算词信息熵的方式适用于大文本(如字数较多的文档),对于搜索请求之类的短文本,由于一个搜索请求平均只包含2.4个词语,而一个词语在一个搜索请求中很少会出现多次,因此,采用TF/IDF公式计算词信息熵时,无法区分搜索请求中各词语的重要度。例如:如果一个搜索请求是“新款手机”,则采用TF/IDF公式计算词信息熵时,无法区分常用的修饰词“新款”和表达中心意图的词“手机”的重要度。
为了实现针对短文本的词信息熵的计算,目前提出了一种基于语料的标题和描述统计词语重要度的方法。其原理是将文档(即大文本)的标题看作是一个搜索请求,利用标题中词语在描述中出现的频度信息为每个词语计算一个词信息熵。此算法避免了单纯在短文本中使用TF/IDF公式计算词信息熵的缺点,但该方法将文档的标题视为搜索请求,而标题中的词语不一定是文档中出现频次最高的词语,因此,可能会导致计算出的各词语的词信息熵与用户发起搜索请求的真实意图有偏差,使得搜索结果准确度较低。
发明内容
一方面,本申请提供一种确定词信息熵的方法及设备,用以解决现有技术中存在的对搜索请求中词语的词信息熵的确定存在偏差的问题。
另一方面,本申请还提供一种搜索方法,用以解决在搜索请求没有完全匹配的搜索结果时,怎样提高搜索结果准确性的问题。
一种确定词信息熵的方法,所述方法包括:
确定用户输入的各搜索请求所属的类目;
根据所属的类目将所述搜索请求划分为多组;
对每组内的搜索请求分词;
统计分词后得到的各词语在每组内出现的概率;
根据所述概率确定各词语的用于搜索的词信息熵值。
一种确定词信息熵的设备,所述设备包括:
类目确定模块,用于确定用户输入的各搜索请求所属的类目;
分组模块,用于根据所属的类目将所述搜索请求划分为多组;
分词模块,用于对每组内的搜索请求分词;
概率确定模块,用于统计分词后得到的各词语在每组内出现的概率;
词信息熵值确定模块,用于根据所述概率确定各词语的用于搜索的词信息熵值。
一种利用词信息熵的搜索方法,包括:
根据用户输入的一搜索请求,判断是否存在与所述一搜索请求匹配的搜索结果;
若不存在与所述一搜索请求匹配的搜索结果,则根据保存的各词语及各词语对应的词信息熵值,在所述一搜索请求分词后得到的词语中选择词信息熵值小于设定阈值的至少一个词语进行搜索;
其中,各词语及各词语对应的词信息熵值是通过以下方式确定的:
根据用户输入的各搜索请求所属的类目将所述搜索请求划分为多组,在对每组内的搜索请求分词后,根据统计分词后得到的各词语在每组内出现的概率确定各词语的词信息熵值。
一种利用词信息熵的搜索设备,包括:
词信息熵值确定模块,用于根据用户输入的各搜索请求所属的类目将所述搜索请求划分为多组,在对每组内的搜索请求分词后,根据统计分词后得到的各词语在每组内出现的概率确定各词语的词信息熵值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010120564.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置