[发明专利]一种基于深度学习的科技新闻自动写作系统在审

专利信息
申请号: 202010707063.6 申请日: 2020-07-21
公开(公告)号: CN111859887A 公开(公告)日: 2020-10-30
发明(设计)人: 刘超;刘霖雯 申请(专利权)人: 北京北斗天巡科技有限公司
主分类号: G06F40/186 分类号: G06F40/186;G06F40/216;G06F40/247;G06F40/295;G06F40/30;G06F16/906;G06F16/951;G06N3/08
代理公司: 成都弘毅天承知识产权代理有限公司 51230 代理人: 白小明
地址: 101300 北京市顺义区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 科技新闻 自动 写作 系统
【说明书】:

发明公开了一种基于深度学习的科技新闻自动写作系统,涉及新闻写作技术领域,本发明包括网络爬虫模块;科技新闻预处理模块;科技新闻分类聚类模块;科技新闻深度学习生成训练模块;新闻自动生成模块;生成新闻展示模块,解决实现科技新闻快速生成,并且可以根据不同的网站风格之类,生成出来不同风格的新闻形式。

技术领域

本发明涉及新闻写作技术领域,用于科技新闻的信息处理和新闻稿编写更具体的是涉及一种基于深度学习的科技新闻自动写作系统。

背景技术

新闻作品有很多类别,诸如民生、时政、军事等等,这些见诸于报端的各个栏目或版面,互联网的新闻也逐渐的增多,各类新闻网站层出不穷。

而科技新闻就是新近发生的有特色的科技事实的报道,由于科技类新闻多为会议新闻,素材多为会议通稿以及相关报道,鲜有专门的采访,因此素材很重要。而针对科技类新闻,对于记者的要求也偏向理科生的理性思维。而随着互联网的发展,科技人物,科技事件的发生,每天科技类的相关报道也约来越多,而相对来说针对科技类的新闻报道也越来越多,导致新闻报道成本越来越高。

因此为了降低科技类新闻的报道成本,发现DeepMind的最新研究成果,对广泛使用于语音识别、图像识别、语义理解等领域的深度学习人工网络RNN性能带来显著提升(substantially better)。研究主要在记忆时序生成模型上用了外部记忆来增强,对深度学习领域的研究有一定启发,本发明使用生成记忆模型,针对科技新闻进行训练,实现了一版基于生成记忆模型的科技新闻生成系统。

本发明在总结分析人类作者写作科技新闻内容的基础上,发明了用机器学习的方法实现一种机器学习写作系统。

发明内容

本发明的目的在于:为了解决实现科技新闻快速生成,并且可以根据不同的网站风格之类,生成出来不同风格的新闻形式,本发明提供了一种基于海量数据大规模训练深度学习的科技新闻自动生成写作系统。

本发明为了实现上述目的具体采用以下技术方案:一种基于深度学习的科技新闻自动写作系统,其特征在于,包括以下几个模块:

网络爬虫模块:该模块从各个网站采集网站的科技频道,科技新闻,以及采集各个科技网站的相关内容,将采集的数据进行正文提取,存入数据库;

科技新闻预处理模块:针对采集的新闻,进行分词,命名实体识别,实体关系抽取,句法分析,语义分析;

科技新闻分类聚类模块:主要针对科技新闻内容,尽心进一步的细化,采用智能分类和聚类技术,针对科技新闻进行详细分类基于深度学习的生成记忆模型针对新闻内容进行训练学习,最终实现一个基于生成记忆模型的新闻生成模型;

科技新闻深度学习生成训练模块:基于svm和基于深度学习的textrnn的分类系统,同时针对部分类别属性不明确的新闻,进行了无监督的聚类算法,实现了基于lda的自动聚类算法的针对分类阈值归属较为偏离的内容进行聚类;

新闻自动生成模块:用户只要输入想要写作新闻的关键词,写作风格和时间等要素,新闻生成模型自动搜寻写作生成用户需要的新闻内容展示给用户;

生成新闻展示模块:新闻自动生成模块生成的新闻,按照指定的网络协议,传输发动到指定的论坛,新闻网站,由用户进行打分,进行评估新闻生成质量的好坏,反馈到第四部分,不断的优化改进,最终实现了一版基本可读新闻的内容。

进一步地,所述科技新闻预处理模块包括:

新闻内容分词子模块:主要是针对新闻正文和标题进行,格式话进行繁简转化,大小写统一,无效字符删除等,针对处理后的内容进行分词,去除停用词作为候选处理数据集;

新闻命名实体识别模块:主要是识别出新闻的人名,地名,组织机构名,产品名,专业名词和发生时间等;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京北斗天巡科技有限公司,未经北京北斗天巡科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010707063.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top