[发明专利]文档目录自动生成方法、装置及计算机可读存储介质在审
申请号: | 201910965809.0 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110852079A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 侯丽;佘昊天 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 目录 自动 生成 方法 装置 计算机 可读 存储 介质 | ||
本发明涉及一种人工智能技术,揭露了一种文档目录自动生成方法,包括:提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得训练后的标题规则;基于训练后的所述标题规则,生成正则表达式;遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。本发明还提出一种文档目录自动生成装置以及一种计算机可读存储介质。本发明可以实现精准高效的文档目录自动生成功能。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种对文档结构的深度学习进而生成文档目录的方法、装置及计算机可读存储介质。
背景技术
目前已有的提取文档目录的方法主要是通过POI(Point of Interest,兴趣点)读取一个word文档。现有技术只能按段落读取,无法识别文档的具体结构。此外,在文档中有多级标题的情况下,现有方法不能把文档中的目录结构完整、准确地提取出来。
发明内容
本发明提供一种文档目录自动生成方法、装置及计算机可读存储介质,其主要目的在于提供一种对目标文档进行深度学习从而得到文档目录的方法。
为实现上述目的,本发明提供的一种文档目录自动生成方法,包括:
提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;
将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得到训练后的标题规则;
基于训练后的所述标题规则,生成正则表达式;
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
可选地,所述文档目录自动生成方法还包括:构建所述生成对抗网络模型,包括:
建立生成模型和判别模型;将所述生成模型和判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
可选地,所述生成正则表达式之前,所述文档目录自动生成方法还包括:
基于训练后的标题规则生成状态机;其中,所述生成状态机包括:
对训练后的标题规则进行语法解析,并将所述训练后的标题规则改写成状态机构建所需的状态机规则;根据所述状态机规则进行状态机构建;
将构建的状态机转换成生成正则表达式所需要的格式并存储。
可选地,所述遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,包括:
遍历所述目标文档全部内容,从所述目标文档提取一个或多个感兴趣点;
通过所述感兴趣点提取所述目标文档的内容,识别所述目标文档的大纲结构;
将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,并提取所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
可选地,所述文档目录为可扩展标记语言;所述目标文档的文件格式为MicrosoftOffice Word。
此外,为实现上述目的,本发明还提供一种文档目录自动生成装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的文档目录自动生成程序,所述文档目录自动生成程序被所述处理器执行时实现如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910965809.0/2.html,转载请声明来源钻瓜专利网。