首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]非结构化数据文档处理方法及相关设备在审

申请号：	202110602466.9	申请日：	2021-05-31
公开（公告）号：	CN113642569A	公开（公告）日：	2021-11-12
发明（设计）人：	张耀宏;李艾玲;魏宁霞;张华;贺桂萍;党引;刘莉莉;刘畅;陈晓双;周旭东;陆春江	申请（专利权）人：	国网宁夏电力有限公司
主分类号：	G06K9/32	分类号：	G06K9/32;G06F40/30;G06F40/253;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京风雅颂专利代理有限公司 11403	代理人：	孙晓凤
地址：	750001 宁夏***	国省代码：	宁夏;64
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	结构数据文档处理方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种非结构化数据文档处理方法，包括：

利用基于深度学习的文字识别模型，对非结构化数据文档进行文字识别，以获得文字内容；

采用信息抽取算法从所述文字内容中抽取关键信息；

将所述关键信息转化为结构化数据予以存储或输出。

2.根据权利要求1所述的方法，其中，利用所述文字识别模型对所述非结构化数据文档进行文字识别包括：

通过文本检测模型，检测出所述非结构化数据文档中的文字区域；

通过所述文字识别模型，对所述文字区域进行文字识别。

3.根据权利要求2所述的方法，其中，所述文本检测模型包括Faster R-CNN模型、全卷积网络FCN模型和连接文本候选网络CTPN模型之一。

4.根据权利要求2所述的方法，其中，所述文字识别模型包括：

卷积神经网络CNN、循环神经网络RNN和连接时间分类CTC的组合；或者

CNN、Seq2Seq模型和注意力机制的组合。

5.根据权利要求1至4中任一项所述的方法，其中，采用信息抽取算法从所述文字内容中抽取关键信息包括：

通过基于字符模式的抽取、基于语法模式的抽取或基于语义模式的抽取，从所述文字内容中抽取信息实体作为所述关键信息。

6.根据权利要求1至4中任一项所述的方法，其中，采用信息抽取算法从所述文字内容中抽取关键信息包括：

通过基于监督学习的抽取模型或基于远程监督学习的抽取模型，从所述文字内容中抽取实体关系作为所述关键信息。

7.根据权利要求1至4中任一项所述的方法，其中，采用信息抽取算法从所述文字内容中抽取关键信息包括：

通过基于深度学习的抽取模型，从所述文字内容中抽取信息实体作为所述关键信息。

8.根据权利要求7所述的方法，其中，所述基于深度学习的抽取模型包括双向长短期记忆网络BiLSTM和条件随机场CRF的组合。

9.一种非结构化数据文档处理装置，包括：

文字识别模块，用于利用基于深度学习的文字识别模型对非结构化数据文档进行文字识别，以获得文字内容；

信息抽取模块，用于采用信息抽取算法从所述文字内容中抽取关键信息；

转化模块，用于将所述关键信息转化为结构化数据予以存储或输出。

10.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现根据权利要求1至8中任意一项所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网宁夏电力有限公司，未经国网宁夏电力有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110602466.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种粗茎秦艽的栽培方法、粗茎秦艽根及应用
下一篇：一种基于旋转对称六边形的可折叠结构及边界点确定方法

同类专利

专利分类

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top