[发明专利]一种基于文本点击率的搜索结果推荐方法及系统有效
申请号: | 202011386336.8 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112487274B | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 高萌;王进;胡峰;杨小姜;华尹;彭浩 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/9535;G06F16/33;G06F16/335;G06F16/35;G06N3/0464;G06N3/08 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 点击率 搜索 结果 推荐 方法 系统 | ||
1.一种基于文本点击率的搜索结果推荐方法,其特征在于,包括以下步骤:
步骤110,对搜索内容query和搜索结果title进行预处理操作;
步骤120,对query和title构建特征工程;所述特征工程包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征;
步骤130,利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取;
步骤140,根据步骤130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型;
步骤150,根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;
步骤160,利用构建的全连接层网络预测文本预估点击率和相关性,给用户推荐最有可能点击的搜索结果;
其中,所述步骤120具体包括:
步骤121,计算词粒度的统计特征,用于描述搜索问题query和搜索标题title之间基于词的匹配信息,包含特征有:query或title长度、query长度-title长度、query是否完全包含title、query和title的公共词个数、query和title的公共词个数与query和title长度的占比、title出现的频次、query和title的最长连续公共子序列长度;
步骤122,计算文本语义特征,用于描述query和title之间语义上的联系,包含特征有:N-gram特征,query中第一、第二和第三个词语中的任两个是否相同,query中第一、第二和第三个词语在title中出现的位置,query首词或末词在title中的顺序以及出现位置;
获取query和title的共现语句s,计算与query和title语句的占比,得共现率特征:
其中len表示获取语句的长度;
步骤123,计算相似度特征,用于衡量query和title相似程度,包括:
步骤123a,通过词向量word2vec和快速文本分类器fasttext将文本进行词向量编码,通过以下公式给每个词赋予一个权重评价w:
其中m为文档总数,wi,j为词语i在第j篇文档中出现的次数,aj为第j篇文档词语的个数,itf表示为加强过后的tf,iidf表示加强过后的idf,itf和iidf为TFC算法,α为根据正负类别频率的平衡系数,ni为包含词语i的所有文档数,p(i1)为单词i在正例类别中的频率,p(i0)为单词i在反例类别中的频率;
步骤123b,利用权重值对query和title中的每个词进行加权求和得到query和title的句向量表示:
其中m是文中词语个数,vi为第i个词的词向量,sentence vec为计算得到的句向量;
步骤123c,对得到query和title的句向量进行余弦相似度、莱文斯坦levenshtein相似度、曼哈顿距离计算,把计算结果作为相似度特征;
步骤124,计算历史信息特征,用于根据历史数据去刻画title信息,包括:
步骤124a,根据步骤110得到的query和title的关键词提取query历史点击率、title历史点击率作为特征;
对于冷启动文本,即测试集中未在训练集中出现的样本,统计训练集title出现的次数count和点击次数click,click为0的填充为1,测试集中未出现的title的点击率设置为0.2;
步骤124b,计算title质量分数特征,一个query中用户点击的title和另一个query中用户点击的title,这两个title对于query的重要程度根据以下公式:
其中qt表示包含title的query,labelq表示该query的标签值,1为对当前query下的该title有点击,0为未点击,ctrq为该query的一个整体点击率,Scoretitle为一个title的最终得分,即是包含该title的所有query下该title的得分总和;
根据公式得到title对于不同query下的一个得分,然后title的最终得分是包含该title的所有query下该title得分的总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011386336.8/1.html,转载请声明来源钻瓜专利网。