[发明专利]用于搜索引擎的色情用户查询识别方法及设备有效
申请号: | 201310134933.5 | 申请日: | 2013-04-18 |
公开(公告)号: | CN103177126A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 程学旗;熊锦华;公帅;张成;廖华明;王元卓 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索引擎 色情 用户 查询 识别 方法 设备 | ||
1.一种用于搜索引擎的色情用户查询识别方法,该方法包括:
步骤1)利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询;
其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。
2.根据权利要求1所述的方法,其中用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。
3.根据权利要求1所述的方法,其中,所述分类模型是基于已标注的用户查询集合通过以下步骤进行训练:
步骤21)基于用户查询日志来训练主题模型;
步骤23)利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,并以用户查询的命名实体和实体上下文主题特征来训练所述分类模型。
4.根据权利要求2所述的方法,其中,所述分类模型是基于已标注的用户查询集合通过以下步骤进行训练:
步骤21)基于用户查询日志来训练主题模型;
步骤22)基于色情语料和非色情语料分别训练基于统计的语言模型;
步骤23)利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询和非色情查询的概率,并以用户查询的命名实体和实体上下文主题特征以及用户查询属于色情查询和非色情查询的概率来训练所述分类模型。
5.根据权利要求3所述的方法,所述步骤1)包括:
通过已收集的色情类型的命名实体集合将待识别的用户查询切分为命名实体和实体上下文两部分,并利用训练好的主题模型提取该用户查询的命名实体和实体上下文主题特征;
基于该用户查询的命名实体和实体上下文主题特征,利用训练好的分类模型判断该用户查询是否为色请用户查询。
6.根据权利要求4所述的方法,所述步骤1)包括:
通过已收集的色情类型的命名实体集合将待识别的用户查询切分为命名实体和实体上下文两部分,并利用训练好的主题模型提取该用户查询的命名实体和实体上下文主题特征;
利用训练好的语言模型来判断该用户查询属于色情查询和非色情查询的概率,
基于该用户查询的命名实体和实体上下文主题特征以及该用户查询属于色情查询和非色情查询的概率,利用训练好的分类模型判断该用户查询是否为色请用户查询。
7.根据权利要求3至6之一所述的方法,所述步骤21)包括:
通过已收集的色情类型的命名实体集合将用户查询日志中的每个查询切分为命名实体和实体上下文两部分;
将每一个命名实体在用户查询日志中的实体上下文聚合为一篇关于该命名实体的文档,并构造该文档的词频特征向量;
基于从用户查询日志中提取的命名实体和关于命名实体的文档及其词频特征向量来对主题模型进行训练,以得到实体上下文的主题分布特征和每个命名实体的主题分布特征。
8.一种用于搜索引擎的色情用户查询识别设备,该设备包括:
识别装置,用于利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询;其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。
9.根据权利要求8所述的设备,其中,用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。
10.根据权利要求8或9所述的设备,还包括训练装置,用于基于已标注的用户查询集合,训练所述分类模型。
11.根据权利要求10所述的设备,所述训练装置被配置为执行:
基于用户查询日志来训练主题模型;以及
利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,并以用户查询的命名实体和实体上下文主题特征来训练所述分类模型。
12.根据权利要求10所述的设备,所述训练装置被配置为执行:
基于用户查询日志来训练主题模型;
基于色情语料和非色情语料分别训练基于统计的语言模型;以及
利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询和非色情查询的概率,并以用户查询的命名实体和实体上下文主题特征以及用户查询属于色情查询和非色情查询的概率来训练所述分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310134933.5/1.html,转载请声明来源钻瓜专利网。