[发明专利]一种基于文本分析技术的自动写稿系统在审

申请号：	201910852564.0	申请日：	2019-09-10
公开（公告）号：	CN110765742A	公开（公告）日：	2020-02-07
发明（设计）人：	陶敬伟;包盛;诸葛忠;杨谦	申请（专利权）人：	上海融盈数据科技有限公司
主分类号：	G06F40/151	分类号：	G06F40/151;G06F40/186;G06F16/958
代理公司：	11518 北京易正达专利代理有限公司	代理人：	陈桂兰
地址：	200120 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及文本分析、自然语言文字处理技术领域，且公开了一种基于文本分析技术的自动写稿系统，包括以下步骤：S1，从网页中及时获取企业发布的各种年报、公告信息，主要是以PDF文档为主；S2，下载PDF文件后，将PDF文件输入到R‑CNN神经网络中，通过深度学习技术对文档进行解析，分离图片和表格。本发明通过自动化写稿系统，能够快速的从互联网上获取上市企业发布的各类信息，并对这些信息进行提取、处理、生成摘要、格式变换后，最终为用户呈现出来可视化的、易理解的摘要稿件信息。
搜索关键词：	文本分析自然语言文字稿件信息格式变换公告信息上市企业神经网络用户呈现可视化文档下载发布解析网页自动化互联网学习图片
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于文本分析技术的自动写稿系统，其特征在于，包括以下步骤：/nS1，从网页中及时获取企业发布的各种年报、公告信息，主要是以PDF文档为主；/nS2，下载PDF文件后，将PDF文件输入到R-CNN神经网络中，通过深度学习技术对文档进行解析，分离图片和表格；/nS2-1，首先分析文档的目录，将文档根据目录进行页码分组；/nS2-2，按照目录提取出每个段落标题的文字作为关键数据，并且按照段落分级进行组织，获得整片文档的段落信息为Sector[i]数组；/nS2-3，将文档中的图片和表格从文字中分离出来，图片直接保存到数据库中，表格输入到神经网络中；/nS2-4，通过神经网络对表格中的数据进行提取，并且保存到关系数据库中；/nS3，将分离得到的文档进行自然语言处理，获取文档中的情绪信息，处理完成后给出文档的情绪指标Motion(i)；/nS4，将分离得到的文档进行自然语言处理，从中进行文本摘要抽取，抽取出的文本片段为Text(i)；/nS5，根据Sector[i]和Motion[i]的信息，在动态模板库中选择合适的模板Model[i]，并将Text[i]内容填入选择的模板Mode[i]，最终得到可以发布的稿件Article[i]；/nS6，对稿件Article[i]进行文档格式转换。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海融盈数据科技有限公司，未经上海融盈数据科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910852564.0/，转载请声明来源钻瓜专利网。

上一篇：数据处理的方法、装置、计算机设备和存储介质
下一篇：用于数学公式在HTML中编辑显示和导出到Word文档中的系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本分析技术的自动写稿系统在审

专利文献下载