[发明专利]一种基于语义处理的表格片段链接复原方法及系统在审
申请号: | 202011621485.8 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112632927A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 金鑫;李鹏辉 | 申请(专利权)人: | 上海犀语科技有限公司 |
主分类号: | G06F40/174 | 分类号: | G06F40/174;G06F40/30;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 上海乐泓专利代理事务所(普通合伙) 31385 | 代理人: | 苏杰 |
地址: | 200082 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 处理 表格 片段 链接 复原 方法 系统 | ||
本发明的一种基于语义处理的表格片段链接复原方法,具体包括如下步骤:S100、对表格进行结构化抽取得到表格片段;S200、对步骤S100抽取的表格片段进行预处理;S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;S400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。本实施例的方法利用LSTM深度学习模型进行表示学习,自动化挖掘表格上下文和表格内数据中所蕴含的语义信息,实现对PDF文档中的换行换页场景下的表格片段是否应该进行链接复原的智能化识别,并对该组表格片段进行链接复原。
技术领域
本发明属于表格文本处理技术领域,具体来说是一种基于语义处理的表格片段链接复原方法及系统。
背景技术
近年来,深度学习技术在自然语言处理、图形图像、自动驾驶等多个领域得到大量应用,且表现效果要明显优于传统方法。
在自然语言处理领域,深度学习技术通过在高维空间中编码文本文字,能够捕获深层次的语法和语义信息,从而为进一步从语义出发实现自然语言处理领域的高级应用提供了技术基础。
在文本信息处理中,存在大量不同样式的表格。当前技术对于表格信息的提取仍存在许多问题。如当出现换页换行的时候,单纯通过分隔线或简单的规则难以判断出换行或非换行的情况。对于无表格线的情况,计算机难以对相邻两行是否输出同一单元格做出准确判断。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决现有的表格处理方法难以准确的判断相邻的单元格是否可以进行合并的问题。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种基于语义处理的表格片段链接复原方法,具体包括如下步骤:
S100、对表格进行结构化抽取得到表格片段;
S200、对步骤S100抽取的表格片段进行预处理;
S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;
S400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。
优选的,所述步骤S100具体为根据表格结构将表格中的表格片段进行抽取。
优选的,所述步骤S200中的预处理具体为对表格片段的上下文进行提取并清洗、对表格片段中单元格文本进行提取,将提取并合并后的单元格序列转化成文本,以及对文字进行清洗除去表格片段的上下文和表格内的无效内容。
优选的,所述步骤S300具体包括如下步骤:
S310、获取上下文词向量,对每个表格片段的上下文利用word2vec学习获取对应的向量;
S320、获取表格内文本词向量,对每个表格片段的表格内文本利用word2vec学习获取对应的向量;
S330、词向量拼接,对上下文词向量和表格内文本词向量进行拼接;
S340、模型处理,通过LSTM深度学习模型对文本进行双向的LSTM处理,学习文本的语义信息,获取表格片段的语义特征;
S350、复原判断,通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。
优选的,所述步骤S400中对模型处理结果进行规则校验具体为对合并后的单元格信息进行校验,针对模型预测错误的结果进行规则校正。
优选的,所述对文字进行清洗除去表格片段的上下文和表格内的无效内容中,对文字清洗具体为删除无意义的标点符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海犀语科技有限公司,未经上海犀语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011621485.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阀门密封性智能检测装置
- 下一篇:一种无接触密码键盘处理的方法和相关装置