[发明专利]一种通过识别文档排版结构获取目标文档的方法与系统在审
申请号: | 202110618770.2 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113553800A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 楼雄伟;杨来邦;王永众;蔡崇远 | 申请(专利权)人: | 浙江农林大学;杭州感知科技有限公司 |
主分类号: | G06F40/109 | 分类号: | G06F40/109;G06F40/186;G06F40/258 |
代理公司: | 宁波市鄞州盛飞专利代理事务所(特殊普通合伙) 33243 | 代理人: | 龙洋;洪珊珊 |
地址: | 311300 浙江省杭州市临安*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 识别 文档 排版 结构 获取 目标 方法 系统 | ||
1.一种通过识别文档排版结构获取目标文档的方法,其特征在于,包括步骤:
S1:获取待处理文档中的回车符,并根据回车符获取段落标注文档;
S2:通过预设排版格式库中的预设页面设置要求获取预设空白文档,所述预设排版格式库还包含预设排版格式要求;
S3:通过段落标注文档利用段落结构信息识别模型获取论文结构列表;所述段落结构信息识别模型通过已标注好段落结构信息的训练样本训练获取;
S4:获取段落标注文档中的段落信息,根据论文结构列表以及预设排版格式要求标准化段落信息,并将标准化后的段落信息插入预设空白文档得到标准预设空白文档;根据标准预设空白文档利用论文结构列表获取目标文档。
2.根据权利要求1所述的一种通过识别文档排版结构获取目标文档的方法,其特征在于,所述步骤S3中,段落结构信息识别模型获取的具体步骤为:
S31:获取训练样本并进行预处理,所述预处理为根据训练样本的各标题信息设置对应的标题编码,并根据训练样本的各段落结构内容标记对应的结构标注信息;
S32:通过预处理后的训练样本训练段落结构信息识别模型。
3.根据权利要求1所述的一种通过识别文档排版结构获取目标文档的方法,其特征在于,所述段落结构信息识别模型包括分词器和滑动窗口,训练后的段落结构信息识别模型包括有被预测单词的标注向量值,步骤S3中通过段落标注文档利用段落结构信息识别模型获取论文结构列表的具体方法为:
通过分词器获取段落标注文档的文字列表;
根据文字列表利用滑动窗口获取不同组合下的文字组合内容,并向量化文字组合内容;
根据文字组合内容的向量值以及被预测单词的标注向量值获取论文结构列表。
4.根据权利要求1所述的一种通过识别文档排版结构获取目标文档的方法,其特征在于,所述步骤S4具体包括:
S41:根据论文结构列表依次获取段落标注文档中段落信息的结构特征,所述不同的结构特征对应不同的预设排版格式要求;
S42:根据段落信息的结构特征,利用其对应的预设排版格式要求标准化段落信息,并将标准化后的段落信息插入预设空白文档得到标准预设空白文档,判断当前的段落信息是否为最后一段,若否,返回上一步,若是,则进入一下步骤;
S43:根据标准预设空白文档,利用论文结构列表生成对应目录列表以及目录列表对应的页码后插入至标准预设空白文档作为目标文档。
5.一种通过识别文档排版结构获取目标文档的系统,其特征在于,包括:
段落标注文档模块,用于获取待处理文档中的回车符,并根据回车符获取段落标注文档;
预设空白文档模块,用于通过预设排版格式库中的预设页面设置要求获取预设空白文档,所述预设排版格式库还包含预设排版格式要求;
论文结构列表模块,用于通过段落标注文档利用段落结构信息识别模型获取论文结构列表;所述段落结构信息识别模型通过已标注好段落结构信息的训练样本训练获取;
目标文档模块,用于获取段落标注文档中的段落信息,根据论文结构列表以及预设排版格式要求标准化段落信息,并将标准化后的段落信息插入预设空白文档得到标准预设空白文档;根据标准预设空白文档利用论文结构列表获取目标文档。
6.根据权利要求5所述的一种通过识别文档排版结构获取目标文档的系统,其特征在于,所述论文结构列表模块中,段落结构信息识别模型获取的具体方法为:
获取训练样本并进行预处理,所述预处理为根据训练样本的各标题信息设置对应的标题编码,并根据训练样本的各段落结构内容标记对应的结构标注信息;通过预处理后的训练样本训练段落结构信息识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江农林大学;杭州感知科技有限公司,未经浙江农林大学;杭州感知科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110618770.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于文档纠错的提示方法与系统
- 下一篇:一种石油钻机双司钻冗余控制系统