[发明专利]一种通过识别文档排版结构获取目标文档的方法与系统在审

专利信息
申请号: 202110618770.2 申请日: 2021-06-03
公开(公告)号: CN113553800A 公开(公告)日: 2021-10-26
发明(设计)人: 楼雄伟;杨来邦;王永众;蔡崇远 申请(专利权)人: 浙江农林大学;杭州感知科技有限公司
主分类号: G06F40/109 分类号: G06F40/109;G06F40/186;G06F40/258
代理公司: 宁波市鄞州盛飞专利代理事务所(特殊普通合伙) 33243 代理人: 龙洋;洪珊珊
地址: 311300 浙江省杭州市临安*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 通过 识别 文档 排版 结构 获取 目标 方法 系统
【说明书】:

发明公开了一种通过识别文档排版结构获取目标文档的方法与系统,涉及文档排版领域,其通过获取待处理文档中的回车符,并根据回车符获取段落标注文档;通过预设页面设置要求获取预设空白文档;通过段落标注文档利用段落结构信息识别模型获取论文结构列表;根据论文结构列表以及预设排版格式要求标准化段落标注文档的段落信息,并将标准化后的段落信息插入预设空白文档得到标准预设空白文档;根据标准预设空白文档利用论文结构列表获取目标文档。本发明通过段落结构信息识别模型获取论文结构列表,根据论文结构列表以及预设排版格式要求获取到目标文档,解决了人为标记文档结构时容易出错、文档排版效率低以及论文结构不能自动判断的问题。

技术领域

本发明涉及文档排版领域,尤其涉及一种通过识别文档排版结构获取目标文档的方法与系统。

背景技术

目前,高校学位论文有着篇幅长、数据以及图表较多的特点,因此在撰写论文的过程中难免会出现格式上的错误。由于这个问题的存在,导致学生和指导老师在进行论文格式检查的过程中,会花费大量的时间,同时在对格式进行检查的过程中可能会发生疏忽,导致最终的成品论文格式中依旧存在着一些没被发现的错误。

现有技术可以对论文进行排版,但是需要用户先手工标记出论文的段落结构信息,需要用户指出哪些是正文,哪些是标题,哪些是图表,哪些是公式等,然后系统根据用户指出的标记和对应的论文格式要求来对论文进行排版,这样较为浪费时间,且在人为标记文档结构时容易出错,而通过自动识别文档排版结构获取目标文档的方法,对文档的结构进行自动识别,并自动生成对应的目录结构列表,该方法解决了人为标记文档结构时容易出错的问题,实现了论文结构的自动判断,极大的提高了文档排版的效率。

发明内容

为了解决人为标记文档结构时容易出错、文档排版效率低以及论文结构不能自动判断的问题,本发明提出了一种通过识别文档排版结构获取目标文档的方法,包括步骤:

S1:获取待处理文档中的回车符,并根据回车符获取段落标注文档;

S2:通过预设排版格式库中的预设页面设置要求获取预设空白文档,所述预设排版格式库还包含预设排版格式要求;

S3:通过段落标注文档利用段落结构信息识别模型获取论文结构列表;所述段落结构信息识别模型通过已标注好段落结构信息的训练样本训练获取;

S4:获取段落标注文档中的段落信息,根据论文结构列表以及预设排版格式要求标准化段落信息,并将标准化后的段落信息插入预设空白文档得到标准预设空白文档;根据标准预设空白文档利用论文结构列表获取目标文档。

进一步地,所述步骤S3中,段落结构信息识别模型获取的具体步骤为:

S31:获取训练样本并进行预处理,所述预处理为根据训练样本的各标题信息设置对应的标题编码,并根据训练样本的各段落结构内容标记对应的结构标注信息;

S32:通过预处理后的训练样本训练段落结构信息识别模型。

进一步地,所述段落结构信息识别模型包括分词器和滑动窗口,训练后的段落结构信息识别模型包括有被预测单词的标注向量值,步骤S3中通过段落标注文档利用段落结构信息识别模型获取论文结构列表的具体方法为:

通过分词器获取段落标注文档的文字列表;

根据文字列表利用滑动窗口获取不同组合下的文字组合内容,并向量化文字组合内容;

根据文字组合内容的向量值以及被预测单词的标注向量值获取论文结构列表。

进一步地,所述步骤S4具体包括:

S41:根据论文结构列表依次获取段落标注文档中段落信息的结构特征,所述不同的结构特征对应不同的预设排版格式要求;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江农林大学;杭州感知科技有限公司,未经浙江农林大学;杭州感知科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110618770.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top