[发明专利]基于深度学习的新闻资讯呈现方法及相关设备在审
申请号: | 202010601487.4 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111813936A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 王文浩;徐国强 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F16/34;G06F40/216;G06K9/62 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 何春兰;孙芬 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 新闻资讯 呈现 方法 相关 设备 | ||
1.一种基于深度学习的新闻资讯呈现方法,其特征在于,所述方法包括:
通过爬虫技术,从网络上获取实时新闻资讯,并将所述实时新闻资讯按照话题进行分类;
针对每个话题,对所述话题下的每篇文章进行预处理;
利用关键词提取算法,提取预处理后的每篇文章的词频-逆文本频率指数TF-IDF值,并确定所述文章中每个词的词向量;
根据所述TF-IDF值以及所述词向量,确定所述文章的特征向量;
使用DBSCAN聚类算法,对每个所述话题下所有文章的特征向量进行聚类,获得所述话题下的多个子话题的细粒度聚类;
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要,其中,所述BERTSUM模型是基于中文预训练模型RoBERTa框架训练得到的;
输出所述话题、所述话题对应的多个子话题以及每个所述子话题对应的代表性摘要。
2.根据权利要求1所述的方法,其特征在于,所述使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要包括:
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得多个文章摘要;
针对每篇所述文章中,计算文章篇幅长度与热点关键词数量的加权值,并将加权值最大的文章确定为目标文章;
从所述多个文章摘要中,将所述目标文章对应的文章摘要确定为代表性摘要。
3.根据权利要求1所述的方法,其特征在于,所述通过爬虫技术,从网络上获取实时新闻资讯之前,所述方法还包括:
获取文章训练集;
对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章;
使用预设标识符对每个所述预处理文章的语句以及段落进行衔接处理,获得多个训练文章,其中,每个所述训练文章的每个句子携带有摘要标识值;
将所述多个训练文章输入至中文预训练模型RoBERTa框架中,获得所述RoBERTa框架的隐含层在目标位置处的句子特征;
将所述句子特征输入至全连接层,获得所述训练文章中每个句子的摘要预测概率值;
将所述摘要预测概率值以及所述摘要标识值输入至预设的损失函数中,计算损失值;
根据所述损失值,使用反向传播算法,更新所述RoBERTa框架的参数以及所述全连接层的参数,以最小化损失值,获得待验证模型;
获取测试集;
使用所述测试集对所述待验证模型进行测试,获得训练好的BERTSUM模型;
将所述BERTSUM模型上传至区块链上。
4.根据权利要求3所述的方法,其特征在于,所述对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章包括:
针对每篇所述文章的每个段落,按照所述段落的句子先后顺序,提取所述段落的预设数量的目标句子;
将所有所述段落的目标句子进行组合,获得预处理文章。
5.根据权利要求3所述的方法,其特征在于,所述对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章包括:
针对每篇所述文章的每个段落,根据关键字提取算法,确定所述段落的目标关键词;
提取所述目标关键词所在的目标句子;
将所有所述段落提取的目标句子进行组合,获得预处理文章。
6.根据权利要求3所述的方法,其特征在于,所述使用预设标识符对每个所述预处理文章的语句以及段落进行衔接处理,获得多个训练文章包括:
在所述预处理文章的任意相邻的两个段落中间,插入段落标识符;
在每个句子之前,插入语句标识符;
将进行插入处理后的预处理文章确定为训练文章。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010601487.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种螺栓引出式滤波装置
- 下一篇:一种Web电梯监控平台