[发明专利]一种文档处理方法及装置在审
申请号: | 201810332982.2 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108563747A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 张敏;管峥 | 申请(专利权)人: | 北京深度智耀科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件夹 文档 标签 匹配 文档标签 文档处理 文件夹生成 文档生成 关联 层级结构 格式文档 自动关联 准确率 申请 | ||
本申请实施例公开了一种文档处理方法及装置,通过获取规范格式文档的模板,该模板中包括具有层级结构的文件夹,根据这些文件夹生成与各个文件夹对应的文件夹标签,获取待处理文档,根据待处理文档生成待处理文档的文档标签。判断是否存在与待处理文档的文档标签匹配的文件夹标签,若是,关联待处理文档和与其匹配的文件夹标签对应的文件夹。由于文件夹标签是根据文件夹生成的,是与文件夹相关的,文档标签是根据待处理文档生成的,是与待处理文档相关的,通过文件夹标签和文档标签的匹配,可以判断文件夹和待处理文档是否匹配,进而可以关联待处理文档和匹配的文件夹,实现待处理文档的自动关联,提高文档处理效率和准确率。
技术领域
本申请涉及互联网技术领域,尤其涉及一种文档处理方法及装置。
背景技术
为了提高信息整理的规范性,通常会使用具有规范格式的文档进行信息的保存,这些文档在结构和命名上具有规范性。例如为了提高药品申报的规范性,药企通常需要在医药研发及医药监管过程中,向监管部门提交具有规范格式的文档,国际上通行的药品注册申请材料的规范格式文档为药品电子通用技术文档(Electronic Common TechnicalDocument,eCTD)。其他具有规范格式的文档,例如还有非eCTD提交文档(Non-eCTDElectronic Submission,NeES)和药品鉴定(Identification of Medicinal Products,IDMP)等。
这些具有规范格式的文档中有大量的递交文档,这些递交文档按照固定的模块和模块中的层级关系进行归类。
将具有格式的文档作为规范格式文档,现有的生成规范格式文档的方式,需要人工对递交文档进行处理,根据递交文档的内容,将递交文档归类至具有规范格式的各个模块中具有层级关系的文件夹中,形成包括递交文档的具有树形结构文件,对该树形结构文件进行处理以形成具有特定格式的规范格式文档。这种通过人工对递交文档进行处理的方式效率较低,花费时间较长,而且人工处理可能出现人为错误,使规范格式文档的生成效率和准确性都较低。
发明内容
为了解决现有技术的文档处理方法中的效率低和准确性低的问题,本申请实施例提供了一种文档处理方法及装置。
本申请实施例提供的文档处理方法,包括:
获取规范格式文档的模板,所述模板包括具有层级结构的文件夹,生成与各个所述文件夹对应的文件夹标签;
获取待处理文档,生成所述待处理文档的文档标签;
判断是否存在与所述待处理文档的文档标签匹配的文件夹标签,若是,关联所述待处理文档和所述匹配的文件夹标签对应的文件夹。
可选的,所述生成与各个所述文件夹对应的文件夹标签,包括:
获取各个所述文件夹的名称;
根据各个所述文件夹的名称,生成与各个所述文件夹对应的文件夹标签。
可选的,所述生成所述待处理文档的文档标签,包括:
获取所述待处理文档的名称;
根据所述待处理文档的名称,生成所述待处理文档的文档标签。
可选的,所述生成所述待处理文档的文档标签,包括:
对所述待处理文档进行解析,获取所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项;
根据所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项,生成所述待处理文档的文档标签。
可选的,所述方法还包括:
根据与所述待处理文档的文档标签匹配的文件夹标签,为和所述匹配的文件夹标签对应的文件夹关联的所述待处理文档重命名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京深度智耀科技有限公司,未经北京深度智耀科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810332982.2/2.html,转载请声明来源钻瓜专利网。