[发明专利]一种基于文本点击率的搜索结果推荐方法及系统有效

专利信息
申请号: 202011386336.8 申请日: 2020-12-02
公开(公告)号: CN112487274B 公开(公告)日: 2023-02-07
发明(设计)人: 高萌;王进;胡峰;杨小姜;华尹;彭浩 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/9532 分类号: G06F16/9532;G06F16/9535;G06F16/33;G06F16/335;G06F16/35;G06N3/0464;G06N3/08
代理公司: 重庆辉腾律师事务所 50215 代理人: 王海军
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 点击率 搜索 结果 推荐 方法 系统
【权利要求书】:

1.一种基于文本点击率的搜索结果推荐方法,其特征在于,包括以下步骤:

步骤110,对搜索内容query和搜索结果title进行预处理操作;

步骤120,对query和title构建特征工程;所述特征工程包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征;

步骤130,利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取;

步骤140,根据步骤130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型;

步骤150,根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;

步骤160,利用构建的全连接层网络预测文本预估点击率和相关性,给用户推荐最有可能点击的搜索结果;

其中,所述步骤120具体包括:

步骤121,计算词粒度的统计特征,用于描述搜索问题query和搜索标题title之间基于词的匹配信息,包含特征有:query或title长度、query长度-title长度、query是否完全包含title、query和title的公共词个数、query和title的公共词个数与query和title长度的占比、title出现的频次、query和title的最长连续公共子序列长度;

步骤122,计算文本语义特征,用于描述query和title之间语义上的联系,包含特征有:N-gram特征,query中第一、第二和第三个词语中的任两个是否相同,query中第一、第二和第三个词语在title中出现的位置,query首词或末词在title中的顺序以及出现位置;

获取query和title的共现语句s,计算与query和title语句的占比,得共现率特征:

其中len表示获取语句的长度;

步骤123,计算相似度特征,用于衡量query和title相似程度,包括:

步骤123a,通过词向量word2vec和快速文本分类器fasttext将文本进行词向量编码,通过以下公式给每个词赋予一个权重评价w:

其中m为文档总数,wi,j为词语i在第j篇文档中出现的次数,aj为第j篇文档词语的个数,itf表示为加强过后的tf,iidf表示加强过后的idf,itf和iidf为TFC算法,α为根据正负类别频率的平衡系数,ni为包含词语i的所有文档数,p(i1)为单词i在正例类别中的频率,p(i0)为单词i在反例类别中的频率;

步骤123b,利用权重值对query和title中的每个词进行加权求和得到query和title的句向量表示:

其中m是文中词语个数,vi为第i个词的词向量,sentence vec为计算得到的句向量;

步骤123c,对得到query和title的句向量进行余弦相似度、莱文斯坦levenshtein相似度、曼哈顿距离计算,把计算结果作为相似度特征;

步骤124,计算历史信息特征,用于根据历史数据去刻画title信息,包括:

步骤124a,根据步骤110得到的query和title的关键词提取query历史点击率、title历史点击率作为特征;

对于冷启动文本,即测试集中未在训练集中出现的样本,统计训练集title出现的次数count和点击次数click,click为0的填充为1,测试集中未出现的title的点击率设置为0.2;

步骤124b,计算title质量分数特征,一个query中用户点击的title和另一个query中用户点击的title,这两个title对于query的重要程度根据以下公式:

其中qt表示包含title的query,labelq表示该query的标签值,1为对当前query下的该title有点击,0为未点击,ctrq为该query的一个整体点击率,Scoretitle为一个title的最终得分,即是包含该title的所有query下该title的得分总和;

根据公式得到title对于不同query下的一个得分,然后title的最终得分是包含该title的所有query下该title得分的总和。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011386336.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top