[发明专利]基于深度学习的新闻资讯呈现方法及相关设备在审
申请号: | 202010601487.4 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111813936A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 王文浩;徐国强 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F16/34;G06F40/216;G06K9/62 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 何春兰;孙芬 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 新闻资讯 呈现 方法 相关 设备 | ||
本发明涉及人工智能技术领域,提供一种基于深度学习的新闻资讯呈现方法,包括:从网络上获取实时新闻资讯,并将实时新闻资讯按照话题进行分类;对话题下的每篇文章进行预处理,提取预处理后的每篇文章的词频‑逆文本频率指数TF‑IDF值,并确定文章中每个词的词向量;根据TF‑IDF值以及词向量,确定文章的特征向量;对每个话题下所有文章的特征向量进行聚类,获得话题下的多个子话题的细粒度聚类;使用BERTSUM模型,提取每个子话题下的多篇文章的代表性摘要;输出话题、话题对应的多个子话题以及每个子话题对应的代表性摘要。本发明还涉及区块链技术,BERTSUM模型存储在区块链上。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于深度学习的新闻资讯呈现方法及相关设备。
背景技术
随着互联网的快速发展,社会进入了信息极度爆炸的时代,每天将会产生大量的新闻,人们希望花费更少的时间去了解更多自己关注的资讯话题中的重要信息。
然而,目前的新闻资讯,通常是根据新闻的来源,将新闻资讯按照不同领域进行分类,比如财经、科技、国内、国外等,这种分类方式,很难抓取到用户想要关注的维度,新闻资讯的呈现效果较差。
发明内容
鉴于以上内容,有必要提供一种基于深度学习的新闻资讯呈现方法及相关设备,能够提高新闻资讯的呈现效果。
本发明的第一方面提供一种基于深度学习的新闻资讯呈现方法,所述方法包括:
通过爬虫技术,从网络上获取实时新闻资讯,并将所述实时新闻资讯按照话题进行分类;
针对每个话题,对所述话题下的每篇文章进行预处理;
利用关键词提取算法,提取预处理后的每篇文章的词频-逆文本频率指数 TF-IDF值,并确定所述文章中每个词的词向量;
根据所述TF-IDF值以及所述词向量,确定所述文章的特征向量;
使用DBSCAN聚类算法,对每个所述话题下所有文章的特征向量进行聚类,获得所述话题下的多个子话题的细粒度聚类;
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要,其中,所述BERTSUM模型是基于中文预训练模型RoBERTa框架训练得到的;
输出所述话题、所述话题对应的多个子话题以及每个所述子话题对应的代表性摘要。
在一种可能的实现方式中,所述使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要包括:
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得多个文章摘要;
针对每篇所述文章中,计算文章篇幅长度与热点关键词数量的加权值,并将加权值最大的文章确定为目标文章;
从所述多个文章摘要中,将所述目标文章对应的文章摘要确定为代表性摘要。
在一种可能的实现方式中,所述通过爬虫技术,从网络上获取实时新闻资讯之前,所述方法还包括:
获取文章训练集;
对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章;
使用预设标识符对每个所述预处理文章的语句以及段落进行衔接处理,获得多个训练文章,其中,每个所述训练文章的每个句子携带有摘要标识值;
将所述多个训练文章输入至中文预训练模型RoBERTa框架中,获得所述 RoBERTa框架的隐含层在目标位置处的句子特征;
将所述句子特征输入至全连接层,获得所述训练文章中每个句子的摘要预测概率值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010601487.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种螺栓引出式滤波装置
- 下一篇:一种Web电梯监控平台