[发明专利]使用深度学习技术确定文档中的上下文阅读顺序有效

专利信息
申请号: 201810987412.7 申请日: 2018-08-28
公开(公告)号: CN109933780B 公开(公告)日: 2023-04-07
发明(设计)人: S·索德哈尼;K·加格;B·克里什纳穆泰 申请(专利权)人: 奥多比公司
主分类号: G06F40/205 分类号: G06F40/205;G06F40/232;G06F40/30
代理公司: 北京市金杜律师事务所 11256 代理人: 酆迅
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 使用 深度 学习 技术 确定 文档 中的 上下文 阅读 顺序
【权利要求书】:

1.一种用于确定文档中的阅读顺序的方法,所述方法包括:

通过第一网络处理当前文本运行,以生成所述当前文本运行的第一表示,所述第一表示包括使用有状态的字符级模型来训练的递归神经网络RNN的隐藏状态,其中所述第一网络的所述隐藏状态在训练过程中没有重置;

通过相应的第二网络和第三网络来处理在所述当前文本运行的右侧的第二文本运行和在所述当前文本运行的下方的第三文本运行,以生成相应的第二表示和第三表示,其中所述第二表示和所述第三表示包括使用无状态的字符级模型来训练的RNN的相应隐藏状态,其中所述第二网络和所述第三网络的所述隐藏状态在训练过程中被周期性重置;

级联所述第一表示、所述第二表示和所述第三表示以生成级联表示;

通过分类器处理所述级联表示,以生成预测的下一文本运行标签;

基于所述预测的下一文本运行标签来生成文本块,所述文本块包括按照阅读顺序序列的至少一个文本运行;以及

基于所述预测的下一文本运行标签来更新所述当前文本运行,使得所述当前文本运行是在所述当前文本运行的右侧的文本运行和在所述当前文本运行的下方的文本运行中的一项。

2.根据权利要求1所述的方法,其中如果所述分类器预测所述下一文本运行在所述当前文本运行的右侧,则所述第二文本运行与所述文本块相关联。

3.根据权利要求1所述的方法,其中如果所述分类器预测所述下一文本运行在所述当前文本运行的下方,则所述第三文本运行与所述文本块相关联。

4.根据权利要求1所述的方法,其中所述第二网络和所述第三网络基于相应的所述第二网络和所述第三网络的预测的下一字符以及输入序列中的实际的下一字符、使用损失函数来训练。

5.根据权利要求4所述的方法,其中所述第一网络基于所述第一网络的预测的下一字符和输入序列中的实际的下一字符、使用损失函数来训练。

6.根据权利要求5所述的方法,其中所述第一网络使用损失函数来训练,所述损失函数基于所述第一网络的预测的下一文本字符与输入序列中的实际的下一字符的比较、以及用于下一文本运行的预测标签与所述下一文本运行的实际位置的比较来计算损失。

7.根据权利要求6所述的方法,其中所述第一网络使用截断的时间上的反向传播算法来训练。

8.一种用于确定文档中的阅读顺序的系统,所述系统包括:

一个或多个处理器;

文本运行标记模块,由所述一个或多个处理器可执行或可控制或可执行且可控制,其中所述文本运行标记模块向接收的文本运行分配作为R1、R2、以及R3之一的标签,其中R1指示“当前”,R2指示“右侧”,并且R3指示“下方”;

阅读顺序预测网络,还包括由所述一个或多个处理器可执行或可控制或可执行且可控制的第一LSTM长短期记忆网络、第二LSTM网络和第三LSTM网络,其中所述阅读顺序预测网络通过处理使用有状态的字符级模型训练的所述第一LSTM网络的隐藏状态以及使用无状态的字符级模型训练的所述第二LSTM网络和所述第三LSTM网络的隐藏状态的级联表示,基于经标记的R1文本运行、经标记的R2文本运行、经标记的R3文本运行来生成作为R2、R3和EOS语句的结束之一的预测标签;以及

文本块分析模块,由所述一个或多个处理器可执行或可控制或可执行且可控制,其中所述文本块分析模块向文本块分配文本运行。

9.根据权利要求8所述的系统,其中所述经标记的R1文本运行被提供作为所述第一LSTM的输入,所述经标记的R2文本运行被提供作为所述第二LSTM的输入,并且所述经标记的R3文本运行被提供给所述第三LSTM。

10.根据权利要求9所述的系统,其中所述第一LSTM、所述第二LSTM和所述第三LSTM中的每个LSTM基于相应的输入来生成内部表示R1',R2'和R3'。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810987412.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top