[发明专利]查询负例的泛化方法及装置有效
申请号: | 201910053043.9 | 申请日: | 2019-01-21 |
公开(公告)号: | CN111538806B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 温丽云;李亚丽 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/216 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 泛化 方法 装置 | ||
1.一种查询负例的泛化方法,其特征在于,所述方法包括:
确定包含查询领域关键词的第一查询负例,所述第一查询负例为包含查询领域关键词,但不属于所述查询领域关键词指示的查询领域的查询请求内容数据;
通过查询负例泛化模型,对所述第一查询负例进行泛化处理,以获得查询负例样本。
2.根据权利要求1所述的方法,其特征在于:
确定用于指示查询领域的所述查询领域关键词;
基于所述查询领域关键词,对查询负例集合进行筛选,以确定包含所述查询领域关键词的所述第一查询负例。
3.根据权利要求2所述的方法,其特征在于:
对用户日志的文本数据中的第一查询请求内容数据进行标注处理,以获得属于所述查询领域的第二查询请求内容数据;
对所述第二查询请求内容数据进行分词处理,以获得属于所述查询领域的词语;
确定所述词语的词频和所述词语所属的不同的查询领域的数量;
基于所述词语的词频和所述词语所属的不同的查询领域的数量,确定用于指示所述查询领域的所述查询领域关键词。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对用户日志的文本数据中的第一查询请求内容数据进行标注处理,以预先确定所述查询负例集合。
5.根据权利要求1-4中任意一项权利要求所述的方法,其特征在于,所述通过查询负例泛化模型,对所述第一查询负例进行泛化处理,以获得查询负例样本,包括:
确定用于表征所述第一查询负例的内容数据中的词语的第一向量和用于表征为所述内容数据配置的终结符的第二向量;
通过所述查询负例泛化模型,基于所述第一向量和所述第二向量,对所述第一查询负例进行泛化处理,以获得查询样本;
对所述查询样本进行筛选,以获得所述查询负例样本。
6.根据权利要求5所述的方法,其特征在于,所述通过所述查询负例泛化模型,基于所述第一向量和所述第二向量,对所述第一查询负例进行泛化处理,以获得查询样本,包括:
通过所述查询负例泛化模型,基于所述第一向量和所述第二向量,生成表征所述查询样本中的词语的词向量的概率分布;
基于表征所述查询样本中的词语的词向量的概率分布,确定所述查询样本中的词语。
7.根据权利要求6所述的方法,其特征在于,所述通过所述查询负例泛化模型,基于所述第一向量和所述第二向量,生成表征所述查询样本中的词语的词向量的概率分布,包括:
通过所述查询负例泛化模型,基于所述第一向量和所述第二向量,获得前t个时刻中的每个时刻生成的表征所述查询样本中的词语的词向量;
基于前t个时刻中的每个时刻生成的表征所述查询样本中的词语的词向量,在t+1时刻生成表征所述查询样本中的词语的词向量的概率分布,其中,t为常数。
8.根据权利要求5-7中任意一项权利要求所述的方法,其特征在于,所述查询负例泛化模型包括生成对抗网络模型。
9.一种查询负例的泛化装置,其特征在于,所述装置包括:
第一确定模块,用于确定包含查询领域关键词的第一查询负例,所述第一查询负例为包含查询领域关键词,但不属于所述查询领域关键词指示的查询领域的查询请求内容数据;
泛化处理模块,用于通过查询负例泛化模型,对所述第一查询负例进行泛化处理,以获得查询负例样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910053043.9/1.html,转载请声明来源钻瓜专利网。