[发明专利]一种基于深度学习的科技新闻自动写作系统在审
申请号: | 202010707063.6 | 申请日: | 2020-07-21 |
公开(公告)号: | CN111859887A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 刘超;刘霖雯 | 申请(专利权)人: | 北京北斗天巡科技有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/216;G06F40/247;G06F40/295;G06F40/30;G06F16/906;G06F16/951;G06N3/08 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 白小明 |
地址: | 101300 北京市顺义区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 科技新闻 自动 写作 系统 | ||
1.一种基于深度学习的科技新闻自动写作系统,其特征在于,包括以下几个模块:
网络爬虫模块:该模块从各个网站采集网站的科技频道,科技新闻,以及采集各个科技网站的相关内容,将采集的数据进行正文提取,存入数据库;
科技新闻预处理模块:针对采集的新闻,进行分词,命名实体识别,实体关系抽取,句法分析,语义分析;
科技新闻分类聚类模块:主要针对科技新闻内容,尽心进一步的细化,采用智能分类和聚类技术,针对科技新闻进行详细分类基于深度学习的生成记忆模型针对新闻内容进行训练学习,最终实现一个基于生成记忆模型的新闻生成模型;
科技新闻深度学习生成训练模块:基于svm和基于深度学习的textrnn的分类系统,同时针对部分类别属性不明确的新闻,进行了无监督的聚类算法,实现了基于lda的自动聚类算法的针对分类阈值归属较为偏离的内容进行聚类;
新闻自动生成模块:用户只要输入想要写作新闻的关键词,写作风格和时间等要素,新闻生成模型自动搜寻写作生成用户需要的新闻内容展示给用户;
生成新闻展示模块:新闻自动生成模块生成的新闻,按照指定的网络协议,传输发动到指定的论坛,新闻网站,由用户进行打分,进行评估新闻生成质量的好坏,反馈到第四部分,不断的优化改进,最终实现了一版基本可读新闻的内容。
2.根据权利要求1所述的基于深度学习的科技新闻自动写作系统,其特征在于:所述科技新闻预处理模块包括:
新闻内容分词子模块:主要是针对新闻正文和标题进行,格式话进行繁简转化,大小写统一,无效字符删除等,针对处理后的内容进行分词,去除停用词作为候选处理数据集;
新闻命名实体识别模块:主要是识别出新闻的人名,地名,组织机构名,产品名,专业名词和发生时间等;
新闻实体关系抽取模块:主要是针对识别出的各类名词,抽取优化出来各种实体之间的关系实体关系抽取是,基于crf++方式识别出来实体,然后根据hownet和人工组建的实体关系标注知识库,进行实体关系的抽取,为接下来的深度学习的训练做准备;
新闻文本内容分析模块:主要针对新闻的具体内容做句法分析,句法结构分析器是基于斯坦福句法分析器,实现了汉化功能,分析出内容每条句子的句法结构,以及句子之间的上下文关系,做成一个句法分析的标注序列;
新闻文本语义分析模块:是针对科技新闻报道的人、公司、科技缩略语、产品缩略语、公司简称和人相关的职位等进行分析处理,同时使用语义资源进行同义词和近义词的替换和扩展处理,使用基于word2vec的方式计算语义相关性基于抓取文本方面统计出部分近义词、同义词和相关词。
3.根据权利要求2所述的基于深度学习的科技新闻自动写作系统,其特征在于:所述分词子模块包括分词系统,所述分词系统是基于嵌入了crf++的命名实体识别部分的ansj分词系统。
4.根据权利要求3所述的深度学习的科技新闻自动写作系统,其特征在于:所述crf++是用c++语言实现,应用了大量stl数据结构,在深入阅读源代码的基础上针对源代码里面的stl相关的部分代码进行使用c语言进行改写。
5.根据权利要求2所述的基于深度学习的科技新闻自动写作系统,其特征在于:所述新闻命名实体识别模块采用基于crf++模型进行语料的训练和识别新闻的人名,地名,组织机构名,产品名,专业名词和发生时间等。
6.根据权利要求1所述的基于深度学习的科技新闻自动写作系统,其特征在于:所述新闻自动生成模块包括用户交互模块和新闻生成模块。
7.根据权利要求6所述的基于深度学习的科技新闻自动写作系统,其特征在于:所述用户交互模块主要通过用户输入想生成科技论文的内容的关键词,利用生成的写作模型,自动查找学习生成,相关的关键词句子,再学习各个关键词之间的关系,最文章篇章级别的新闻内容过渡平滑,几个关键词和写作风格的组合,分析采用循环神经网络进行分解,新增动态以存储和保护长程信息,进行记忆存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京北斗天巡科技有限公司,未经北京北斗天巡科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010707063.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冷硬铸铁轧辊
- 下一篇:一种基于互联网信息的商业信息挖掘系统