[发明专利]用于搜索引擎的色情用户查询识别方法及设备有效

申请号：	201310134933.5	申请日：	2013-04-18
公开（公告）号：	CN103177126A	公开（公告）日：	2013-06-26
发明（设计）人：	程学旗;熊锦华;公帅;张成;廖华明;王元卓	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京泛华伟业知识产权代理有限公司 11280	代理人：	王勇
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于搜索引擎色情用户查询识别方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息检索和搜索引擎，尤其涉及搜索引擎中色情用户查询的识别方法。

背景技术

随着互联网规模不断增加，搜索引擎成为互联网上的重要应用系统之一。如何准确的理解用户提交到搜索引擎的查询意图是一个重要的技术问题。准确理解用户的查询意图有助于搜索引擎返回更好的结果或者调用相应的垂直搜索引擎，从而提高搜索引擎的用户体验。然而，互联网中的信息纷繁复杂，糟粕与精华并存，搜索引擎的返回结果中往往包含一些不良结果，例如色情页面。正确识别用户查询中是否包含色情意图能够帮助搜索引擎针对色情用户查询采取特殊措施，避免返回色情页面。这对于保护未成年人和构建和谐的互联网都十分重要。

搜索引擎中用户查询意图最初主要分为三类，分别是导航类，信息类，实务类。导航类是指用户期望找到某个网站的首页。信息类是指用户期望找到一些满足需求的网页，这些网页往往是内容型的，例如新闻，百科类的网页。通过阅读这些页面，用户可以得到满意的信息。事务类是指用户期望找到某个网页能够完成某项事务。例如银行转账，购买商品，查询机票信息等。随着互联网的快速发展，近期的研究工作对用户查询意图进行了进一步的细分，例如用户查询是否涉及找工作，是否搜索餐厅，是否下载音乐等等。正确识别这些细粒度的用户查询意图，能够帮助搜索引擎触发正确的垂直搜索引擎。

由于搜索引擎的用户查询较短，文本特征稀疏，且用户查询往往具有歧义性，因此如何准确的识别用户的查询意图具有挑战性。针对这些问题，现有的技术中主要采用下面两类方法进行解决。一类方法利用用户搜索引擎的点击日志来识别用户的查询意图。这类方法利用用户在查询结果页中所点击的网站或页面来识别查询意图，这类方法假设用户点击的页面满足其查询意图，但是当用户点击页面后快速离开却往往意味着查询意图并没有得到满足，这种行为模式在用户点击日志中并没有得到体现。另一类方法通过使用用户查询的搜索结果反向判断用户查询的意图，这类方法利用搜索结果页的主题分布特征来识别用户查询意图的分布，其对在查询日志中出现频率较低的意图识别不够准确。而且这种基于搜索结果反向判断用户查询意图的方法识别查询意图的时间复杂度高，给搜索引擎造成较大的负荷。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种融合命名实体和语言模型的色情用户查询识别方法，能快速有效地识别色情用户查询。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种用于搜索引擎的色情用户查询意图识别方法，包括：步骤1）利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询；其中，用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。

上述方法中，用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。

上述方法中，所述分类模型可以是基于已标注的用户查询集合通过以下步骤进行训练：

步骤21）基于用户查询日志来训练主题模型；

步骤23）利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征，并以用户查询的命名实体和实体上下文主题特征来训练所述分类模型。

上述方法中，所述分类模型是基于已标注的用户查询集合通过以下步骤进行训练：

步骤21）基于用户查询日志来训练主题模型；

步骤22）基于色情语料和非色情语料分别训练基于统计的语言模型；

步骤23）利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征，利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询和非色情查询的概率，并以用户查询的命名实体和实体上下文主题特征以及用户查询属于色情查询和非色情查询的概率来训练所述分类模型。