[发明专利]一种基于BERT的新闻热点预测方法及装置在审
申请号: | 202210322678.6 | 申请日: | 2022-03-29 |
公开(公告)号: | CN114817529A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 陈慧 | 申请(专利权)人: | 上海二三四五网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200137 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 新闻 热点 预测 方法 装置 | ||
1.一种基于BERT的新闻热点预测方法,其预测待预测新闻成为热点新闻的概率,其特征在于,包括如下步骤:
a.将一个或多个第一待预测新闻特征处理后代入热点新闻预测模型,并确定一个或多个热点新闻模型预测结果为正的第二待预测新闻以及与所述第二待预测新闻相对应的热点概率,其中,所述特征处理至少包括将从所述第一待预测新闻中所提取的新闻标题以及新闻实体拼接处理后转换为字向量;
b.按照热点概率从高至低的顺序对所述第二待预测新闻进行第一排序;
c.重复执行步骤a,并基于每个第二待预测新闻的牛顿冷却权重以及所对应的热点概率进行第二排序。
2.根据权利要求1所述的预测方法,其特征在于,在所述步骤a之前,建立所述热点新闻预测模型,包括如下步骤:
i:确定多个正样本新闻以及多个负样本新闻;
ii:确定正样本新闻标题以及基于LAC算法抽取所述正样本新闻标题所确定的正样本新闻实体,确定负样本新闻标题以及基于LAC算法抽取所述负样本新闻标题所确定的负样本新闻实体;
iii:将所述正样本的新闻标题以及新闻实体使用SEP分隔符分隔后拼接处理后转换为字向量得到正样本输入向量,将所述负样本的新闻标题以及新闻实体使用SEP分隔符分隔后拼接处理后转换为字向量得到负样本输入向量;
iv:将所述正样本输入向量以及所述负样本输入向量代入BERT模型中训练并确定热点新闻预测模型。
3.根据权利要求2所述的预测方法,其特征在于,在所述步骤i中,将最近7天内看到且被点击的次数pv超过1000的新闻或最近7天内看到且被点击的人数UV点击数大于10且UV点击率大于0.01的新闻或最近3个月内UV点击率大于0.04的新闻确定为正样本新闻,将最近7天内,曝光数大于500但UV点击率小于0.0005的新闻确定为负样本新闻。
4.根据权利要求1所述的预测方法,其特征在于,所述步骤a包括如下步骤:
a1:将从所述第一待预测新闻中所提取的新闻标题以及新闻实体使用SEP分隔符拼接处理后转换为768维向量得到第一待预测新闻特征向量;
a2:将所述第一待预测新闻特征向量代入到所述热点新闻预测模型并将第一个token的最后一个隐藏状态的输出进行线性变换,通过Softmax层将线性层的隐向量转化成0到1之间的表示,即所述第一待预测新闻成为热门新闻的概率。
5.根据权利要求4所述的预测方法,其特征在于,在所述步骤a1中,还包括:将从所述第一待预测新闻中所提取的新闻标题以及新闻实体使用SEP分隔符拼接处理后转换为768维向量得到第二待预测新闻特征向量、位置向量以及区分上下句的分段向量,并将所述第二待预测新闻特征向量、位置向量以及区分上下句的分段向量作为第一待预测新闻特征向量。
6.根据权利要求4所述的预测方法,其特征在于,在所述步骤a1中,通过如下公式将线性层的隐向量转化成0到1之间的表示:
其中,j为1到k的自然数。
7.根据权利要求1所述的预测方法,其特征在于,所述步骤c包括如下步骤:
c1:基于第二待预测新闻的点击率、转发率、评论量以及热度衰减时间确定第二待预测新闻的牛顿冷却权重;
c2:基于加权平均算法对每个第二待预测新闻的牛顿冷却权重以及所对应的热点概率进行计算确定第一数值并按照第一数值从高至低的顺序进行第二排序。
8.根据权利要求7所述的预测方法,其特征在于,在所述步骤c2后,还包括步骤c3:将所述第一数值进行随机特征处理后确定第二数值,并将第二数值按照从高至低的顺序进行第三排序。
9.根据权利要求8所述的预测方法,其特征在于,所述随机特征处理的计算公式为:第二数值=第一数值*S,其中,所述S为随机系数,所述S的取值范围为0.04~0.06。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海二三四五网络科技有限公司,未经上海二三四五网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210322678.6/1.html,转载请声明来源钻瓜专利网。