[发明专利]短串相关性校验方法和装置有效
申请号: | 201710063676.9 | 申请日: | 2017-02-03 |
公开(公告)号: | CN108388480B | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 王奕;连义江;李正琪 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06Q30/02 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相关性 校验 方法 装置 | ||
1.一种短串相关性校验方法,其特征在于,包括:
获取第一短串;
获取与所述第一短串相对应的第二短串;
分别将获取到的每个第二短串与所述第一短串组成一个校验对;
获取所述校验对的深层语义特征;
将所述深层语义特征输入迭代决策树GBDT模型,包括:当所述深层语义特征数大于一时,对所述深层语义特征进行以下预处理:将符合组合要求的深层语义特征进行组合,将进行预处理后的深层语义特征输入所述GBDT模型;将所述GBDT模型的输出结果作为所述校验对中的两个短串之间的相关性确定结果。
2.根据权利要求1所述的方法,其特征在于,
所述深层语义特征包括以下任一类特征或任意组合:
行为类特征、语义类特征、IP类特征。
3.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:
增大选定的区分力强的深层语义特征在所述GBDT模型的处理过程中的权重。
4.根据权利要求1所述的方法,其特征在于,
所述第一短串包括:查询词query;
所述第二短串包括:拍卖词bidword。
5.一种短串相关性校验装置,其特征在于,包括:获取模块以及处理模块;
所述获取模块,用于获取第一短串,并获取与所述第一短串相对应的第二短串,将所述第一短串和所述第二短串发送给所述处理模块;
所述处理模块,用于分别将获取到的每个第二短串与所述第一短串组成一个校验对,获取所述校验对的深层语义特征,根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性;
其中,所述处理模块中包括:特征处理子单元以及相关性处理子单元;
所述特征处理子单元,用于分别将获取到的每个第二短串与所述第一短串组成一个校验对,获取所述校验对的深层语义特征,将所述深层语义特征发送给所述相关性处理子单元;
所述相关性处理子单元,用于将所述深层语义特征输入迭代决策树GBDT模型,将所述GBDT模型的输出结果作为所述校验对中的两个短串之间的相关性确定结果,还用于当所述深层语义特征数大于一时,对所述深层语义特征进行以下预处理:将符合组合要求的深层语义特征进行组合,将进行预处理后的深层语义特征输入所述GBDT模型。
6.根据权利要求5所述的装置,其特征在于,
所述深层语义特征包括以下任一类特征或任意组合:
行为类特征、语义类特征、IP类特征。
7.根据权利要求5所述的装置,其特征在于,
所述相关性处理子单元进一步用于,
增大选定的区分力强的深层语义特征在所述GBDT模型的处理过程中的权重。
8.根据权利要求5所述的装置,其特征在于,
所述第一短串包括:查询词query;
所述第二短串包括:拍卖词bidword。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710063676.9/1.html,转载请声明来源钻瓜专利网。