[发明专利]一种基于语义处理的表格片段链接复原方法及系统在审
申请号: | 202011621485.8 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112632927A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 金鑫;李鹏辉 | 申请(专利权)人: | 上海犀语科技有限公司 |
主分类号: | G06F40/174 | 分类号: | G06F40/174;G06F40/30;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 上海乐泓专利代理事务所(普通合伙) 31385 | 代理人: | 苏杰 |
地址: | 200082 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 处理 表格 片段 链接 复原 方法 系统 | ||
1.一种基于语义处理的表格片段链接复原方法,其特征在于,具体包括如下步骤:
S100、对表格进行结构化抽取得到表格片段;
S200、对步骤S100抽取的表格片段进行预处理;
S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;
S400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。
2.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法,其特征在于:所述步骤S100具体为根据表格结构将表格中的表格片段进行抽取。
3.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法,其特征在于:所述步骤S200中的预处理具体为对表格片段的上下文进行提取并清洗、对表格片段中单元格文本进行提取,将提取并合并后的单元格序列转化成文本,以及对文字进行清洗除去表格片段的上下文和表格内的无效内容。
4.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法,其特征在于,所述步骤S300具体包括如下步骤:
S310、获取上下文词向量,对每个表格片段的上下文利用word2vec学习获取对应的向量;
S320、获取表格内文本词向量,对每个表格片段的表格内文本利用word2vec学习获取对应的向量;
S330、词向量拼接,对上下文词向量和表格内文本词向量进行拼接;
S340、模型处理,通过LSTM深度学习模型对文本进行双向的LSTM处理,学习文本的语义信息,获取表格片段的语义特征;
S350、复原判断,通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。
5.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法,其特征在于:所述步骤S400中对模型处理结果进行规则校验具体为对合并后的单元格信息进行校验,针对模型预测错误的结果进行规则校正。
6.根据权利要求3所述的一种基于语义处理的表格片段链接复原方法,其特征在于:所述对文字进行清洗除去表格片段的上下文和表格内的无效内容中,对文字清洗具体为删除无意义的标点符号。
7.根据权利要求4所述的一种基于语义处理的表格片段链接复原方法,其特征在于:所述步骤S350的复原判断具体为将经过预处理和转化后的表格信息(向量化)作为输入,通过线性分类器判断两个表格之间的关系如下:
先判断是否为同一个表格,当判断为不是同一个表格时不进行链接复原;
当判断为同一个表格时,判断前一个表格的最后一行和后一个表格的第一行是否为同一行,当不是同一行是直接进行拼接;当是同一行时,保留前一个表格的最后一行,将后一个表格的第一行文本合并入前一个表格的最后一行。
8.一种基于语义处理的表格片段链接复原系统,其特征在于:所述系统用于执行上述权利要求1-7任一项所述的方法,所述系统包括
表格抽取模块(100),所述表格抽取模块(100)用于对表格进行结构化抽取得到表格片段;
预处理模块(200),所述预处理模块(200)用于对抽取的表格片段进行预处理;
模型处理模块(300),所述模型处理模块(300)用于根据表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;
校验及复原模块(400),所述校验及复原模块(400)用于对模型处理结果进行规则校验,并对需要进行链接的表格片段进行复原。
9.根据权利要求8所述的一种基于语义处理的表格片段链接复原系统,其特征在于:所述模型处理模块(300)包括上下文词向量获取单元(310)、表格文本词向量获取单元(320)、词向量拼接单元(330)、处理单元(340)和判断单元(350)。
10.根据权利要求9所述的一种基于语义处理的表格片段链接复原系统,其特征在于:所述上下文词向量获取单元(310)用于对每个表格片段的上下文利用word2vec学习获取对应的上下文词向量;所述表格文本词向量获取单元(320)用于对每个表格片段的表格内文本利用word2vec学习获取对应的表格文本词向量;所述词向量拼接单元(330)用于对上下文词向量和表格内文本词向量进行拼接;所述处理单元(340)用于通过LSTM深度学习模型对文本进行双向的LSTM处理,学习文本的语义信息,获取表格片段的语义特征;所述判断单元(350)用于通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海犀语科技有限公司,未经上海犀语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011621485.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阀门密封性智能检测装置
- 下一篇:一种无接触密码键盘处理的方法和相关装置